そのABテストの判断は本当に正しいのか？

この記事は最終更新日から約7年が経過しています。

リスティング広告運用者とユーザーとの接点は、PC・タブレット・スマートフォンの画面に表示されるテキストの広告文やバナーだけです。管理画面上の入札単価をいくら執念深く細かく調整しようとも、ユーザーとの唯一の接点であるものが適切でなければ、ユーザーの心を揺さぶるのは難しいでしょう。

この大事な大事な広告文やバナーを改善していく方法が、皆様もご存じABテストです。ABテストというと「悪い方を止めればいいんでしょ！かんたんかんたん！」と思ってしまいます。しかし、自分の勘だけで判断を下すのは危険です。

ABテストは統計学でいう「標本調査」と同じなので、さわりだけでも統計の知識を付けたうえで判断を下すのが賢明であると言えます。「標本調査」とは、調べたい母集団の全体を逐一調べてまわるのではなく、全体から抽出した一部分である標本を調査し、そこから母集団全体の性質を推定することです。

ただし、リスティング広告ではビジネスのスピード感も加わり、素早い、且つシビアな決断が迫られます。よって、例えば厚生労働省の国民生活基礎調査のような一般的な「標本調査」よりも、手さぐり手さぐりの泥臭いものとなります。

※2015年03月13日に追記をいたしました

そのABテストの結果は本当に意味のある数字なのか？
- Excelの式について
- ※2015年03月13日追記
まとめ

そのABテストの結果は本当に意味のある数字なのか？

広告Aと広告Bを配信開始し、いよいよポツポツと管理画面の数字が動き出すと、私たちリスティング広告運用者は「早くアカウントを改善したい、何か手を加えたい！この数字の違いには意味があるはずだ！」という意識で数字を見てしまいがちなので注意が必要ですが、配信結果の数字のほとんどに意味はありません。

例えば、以下のようなABテストの配信結果があります。

20150309_05

これを見て「広告Aがクリック率50％と極めて優秀である一方、広告Bはクリック率0%と無能極まりないから、広告Bは早く止めなくてはならない！」と考える人はいないと思います。なぜならクリック数が少なすぎてほとんど意味が無いからです。

では、以下のような配信結果はどうでしょうか。

20150309_06

「5,000回もクリックされているうえに、コンバージョン率の差も大きい。そろそろ広告Bは止めよう。」と判断する方もいらっしゃると思いますが、それなりにリスキーな判断であることを認識だけでもしておいた方がいいかもしれません。なぜなら、このAB広告配信結果は十分覆りうるものだからです。どのぐらいの可能性で覆るのか、クリック数とコンバージョン率からシミュレーションすることができます。

エクセルで以下のような関数を使います。

20150309_07

セルの位置だけ編集して、コピペして使っていただければと思います。内容は以下に概説します。分散とか標準偏差とかそういうお話に興味が無い方は読み飛ばしましょう。

Excelの式について

これは広告A Bのコンバージョン率の差が正規分布にしたがうと仮定したとき、それが0に収束する確率を求める関数です。「 =NORMDIST(0,広告Aと広告Bのコンバージョン率の差, 広告Aと広告Bのコンバージョン率の差の標準偏差,TRUE) 」で求められます。

「 MAX(C2,C2)-MIN(C2,C2) 」… コンバージョン率の差
「 C2*(1-C2)/B2 」… 広告Aのコンバージョン率の分散
「 C3*(1-C3)/B3 」… 広告Bのコンバージョン率の分散
「 C2*(1-C2)/B2+C3*(1-C3)/B3 」… 広告Aと広告Bのコンバージョン率の差の分散
「 SQRT(C2*(1-C2)/B2+C3*(1-C3)/B3) 」… コンバージョン率の差の標準偏差

この関数に上の数値を入力すると、0.14という数値が出てくるかと思います。この数値が将来コンバージョン率が同じ、もしくは逆転する確率です。つまり、このABテストを現時点で判断すると14％の可能性で間違いとなる可能性があります。

統計学では一般的に5％以上間違っているリスクのある数字は意味のないただの偶然だと見なします。この基準に則るならばこのABテスト配信結果は意味のないただの偶然であり、ステイが賢明な選択肢ということになります。

ABテストの判断を間違うことには、具体的に以下のようなリスクがあります。

見込みがある広告文、ひいては見込みがあるマーケティングの方向性が埋葬されてしまうリスク
見込みのない広告文、ひいては見込みのないマーケティングの方向性を、見込みがあると思い込んでしまうリスク

この誤った判断をリスティング広告に反映してしまうことも危険ですが、この判断を絶対値として信じこんでしまうのはいただけません。

ABテストの結論を出す際にはその数値に本当に意味があるのか、つまり1,000万回試行しても同じ結果が出るのかを十分に吟味することが本来正しい道ではあります。

またある程度のリスクを背負って一方の広告を配信停止する英断を下す際には、例えば「今はコンバージョン単価改善に一刻の猶予も無いため一時停止したが、ある程度(上記では14％程度の)の可能性で見込みがある広告である」と、同じ停止は停止でも判断を誤るリスクを頭の隅に置いておくと、全面的に方向性を見失うリスクを軽減することができます。

このリスクに対する認識が甘いと、たとえABテスト結果を毎日集計して広告文を考え必死に前に進んでいるつもりでも、蓋を開けてみるとスタート地点からぐるぐると半径10メートル圏内を回り続けていただけだった、という事態になりかねません。

※2015年03月13日追記

ABテストの判定のとき、この記事でご紹介した方法では欠点があることがわかりましたので、追記として補足致します。

より正しいABテストの判定を行うには、独立性の検定（カイ二乗検定）を用いることをおすすめします。独立性の検定とは、AとBの違いが偶然なのか意味があるのかを判断する手法の一つです。

前にご紹介した検定方法の欠点は、母集団の均質性・正規分布に従うことなどデータの清廉潔白さが求められることです。この前提条件に狂いがあると、間違った検定結果となる危険があります。一方、独立性の検定はデータに対して特定の仮定を置かない方法なので、ノイズのあるデータに対しても粘り強く妥当な検定結果を返してくれます。

リスティング広告のデータは決してきれいなものではありません。どの時間にどの地域でどういったユーザーにどの配信面で広告が配信されたかを厳密に把握できることはままなりませんし、そもそも人間の判断にはノイズがつきものです。

また、データのボリュームが正規分布を前提とするには不十分であることも多いです。こうした不確かなデータの中から意味を見出すときには、独立性の検定を用いるのが妥当だと言えるでしょう。（※ただし、ご紹介した検定方法にも良い点はあります。前提条件が厳しい分、精度の高い結果が出てくる点です。独立性の検定は、より大雑把な結果が出ます。）

妥当ではない手法を紹介してしまい誠に申し訳ありません。

以下に、エクセルで独立性の検定ができる方法をご紹介します。まず、以下のようにクリック数をコンバージョン無しとコンバージョン有りに分け2×2マスに表記し、各列を合計します。（※コンバージョンの無いクリック＝クリック数ーコンバージョン数）

20150313_10