そのABテストの判断は本当に正しいのか?

ab-test

リスティング広告運用者とユーザーとの接点は、PC・タブレット・スマートフォンの画面に表示されるテキストの広告文やバナーだけです。管理画面上の入札単価をいくら執念深く細かく調整しようとも、ユーザーとの唯一の接点であるものが適切でなければ、ユーザーの心を揺さぶるのは難しいでしょう。

この大事な大事な広告文やバナーを改善していく方法が、皆様もご存じABテストです。ABテストというと「悪い方を止めればいいんでしょ!かんたんかんたん!」と思ってしまいます。しかし、自分の勘だけで判断を下すのは危険です。

ABテストは統計学でいう「標本調査」と同じなので、さわりだけでも統計の知識を付けたうえで判断を下すのが賢明であると言えます。「標本調査」とは、調べたい母集団の全体を逐一調べてまわるのではなく、全体から抽出した一部分である標本を調査し、そこから母集団全体の性質を推定することです。

ただし、リスティング広告ではビジネスのスピード感も加わり、素早い、且つシビアな決断が迫られます。よって、例えば厚生労働省の国民生活基礎調査のような一般的な「標本調査」よりも、手さぐり手さぐりの泥臭いものとなります。

※2015年03月13日に追記をいたしました

そのABテストの結果は本当に意味のある数字なのか?

広告Aと広告Bを配信開始し、いよいよポツポツと管理画面の数字が動き出すと、私たちリスティング広告運用者は「早くアカウントを改善したい、何か手を加えたい!この数字の違いには意味があるはずだ!」という意識で数字を見てしまいがちなので注意が必要ですが、配信結果の数字のほとんどに意味はありません。

例えば、以下のようなABテストの配信結果があります。

20150309_05

これを見て「広告Aがクリック率50%と極めて優秀である一方、広告Bはクリック率0%と無能極まりないから、広告Bは早く止めなくてはならない!」と考える人はいないと思います。なぜならクリック数が少なすぎてほとんど意味が無いからです。

では、以下のような配信結果はどうでしょうか。

20150309_06

「5,000回もクリックされているうえに、コンバージョン率の差も大きい。そろそろ広告Bは止めよう。」と判断する方もいらっしゃると思いますが、それなりにリスキーな判断であることを認識だけでもしておいた方がいいかもしれません。なぜなら、このAB広告配信結果は十分覆りうるものだからです。どのぐらいの可能性で覆るのか、クリック数とコンバージョン率からシミュレーションすることができます。

エクセルで以下のような関数を使います。

20150309_07

セルの位置だけ編集して、コピペして使っていただければと思います。内容は以下に概説します。分散とか標準偏差とかそういうお話に興味が無い方は読み飛ばしましょう。

Excelの式について

これは広告A Bのコンバージョン率の差が正規分布にしたがうと仮定したとき、それが0に収束する確率を求める関数です。「 =NORMDIST(0,広告Aと広告Bのコンバージョン率の差, 広告Aと広告Bのコンバージョン率の差の標準偏差,TRUE) 」で求められます。

  • 「 MAX(C2,C2)-MIN(C2,C2) 」… コンバージョン率の差
  • 「 C2*(1-C2)/B2 」… 広告Aのコンバージョン率の分散
  • 「 C3*(1-C3)/B3 」… 広告Bのコンバージョン率の分散
  • 「 C2*(1-C2)/B2+C3*(1-C3)/B3 」… 広告Aと広告Bのコンバージョン率の差の分散
  • 「 SQRT(C2*(1-C2)/B2+C3*(1-C3)/B3) 」… コンバージョン率の差の標準偏差

この関数に上の数値を入力すると、0.14という数値が出てくるかと思います。この数値が将来コンバージョン率が同じ、もしくは逆転する確率です。つまり、このABテストを現時点で判断すると14%の可能性で間違いとなる可能性があります。

統計学では一般的に5%以上間違っているリスクのある数字は意味のないただの偶然だと見なします。この基準に則るならばこのABテスト配信結果は意味のないただの偶然であり、ステイが賢明な選択肢ということになります。

ABテストの判断を間違うことには、具体的に以下のようなリスクがあります。

  • 見込みがある広告文、ひいては見込みがあるマーケティングの方向性が埋葬されてしまうリスク
  • 見込みのない広告文、ひいては見込みのないマーケティングの方向性を、見込みがあると思い込んでしまうリスク

この誤った判断をリスティング広告に反映してしまうことも危険ですが、この判断を絶対値として信じこんでしまうのはいただけません。

ABテストの結論を出す際にはその数値に本当に意味があるのか、つまり1,000万回試行しても同じ結果が出るのかを十分に吟味することが本来正しい道ではあります。

またある程度のリスクを背負って一方の広告を配信停止する英断を下す際には、例えば「今はコンバージョン単価改善に一刻の猶予も無いため一時停止したが、ある程度(上記では14%程度の)の可能性で見込みがある広告である」と、同じ停止は停止でも判断を誤るリスクを頭の隅に置いておくと、全面的に方向性を見失うリスクを軽減することができます。

このリスクに対する認識が甘いと、たとえABテスト結果を毎日集計して広告文を考え必死に前に進んでいるつもりでも、蓋を開けてみるとスタート地点からぐるぐると半径10メートル圏内を回り続けていただけだった、という事態になりかねません。

※2015年03月13日追記

ABテストの判定のとき、この記事でご紹介した方法では欠点があることがわかりましたので、追記として補足致します。

より正しいABテストの判定を行うには、独立性の検定(カイ二乗検定)を用いることをおすすめします。独立性の検定とは、AとBの違いが偶然なのか意味があるのかを判断する手法の一つです。

前にご紹介した検定方法の欠点は、母集団の均質性・正規分布に従うことなどデータの清廉潔白さが求められることです。この前提条件に狂いがあると、間違った検定結果となる危険があります。一方、独立性の検定はデータに対して特定の仮定を置かない方法なので、ノイズのあるデータに対しても粘り強く妥当な検定結果を返してくれます。

リスティング広告のデータは決してきれいなものではありません。どの時間にどの地域でどういったユーザーにどの配信面で広告が配信されたかを厳密に把握できることはままなりませんし、そもそも人間の判断にはノイズがつきものです。

また、データのボリュームが正規分布を前提とするには不十分であることも多いです。こうした不確かなデータの中から意味を見出すときには、独立性の検定を用いるのが妥当だと言えるでしょう。(※ただし、ご紹介した検定方法にも良い点はあります。前提条件が厳しい分、精度の高い結果が出てくる点です。独立性の検定は、より大雑把な結果が出ます。)

妥当ではない手法を紹介してしまい誠に申し訳ありません。

以下に、エクセルで独立性の検定ができる方法をご紹介します。まず、以下のようにクリック数をコンバージョン無しとコンバージョン有りに分け2×2マスに表記し、各列を合計します。(※コンバージョンの無いクリック=クリック数ーコンバージョン数)

20150313_10

この合計から期待値を算出します。横に、下図のように期待値を表記する表を作成します。期待値は、「=縦列の合計×横列の合計÷全合計」で求められます。Aのコンバージョン無し(期待値)は「=389×170÷410」です。

20150313_11

この二つの図を作成したら、下図のように「=CHITEST(実測値の範囲,期待値の範囲)」を入力することで独立性の検定を行いABの数字の違いに意味が無い可能性(p値)を求めることができます。(※こちら「危険度」と表記します。)

20150313_12

今回の例では、危険度1.61%と求められます。統計学的な基準である5%を下回っているのでAとBの数字の違いには意味があると判断することができます。

20150313_13

統計ソフト等を用いなくても気軽に導入できるので是非ご活用ください。重ね重ねになりますが妥当ではない方法をご紹介し申し訳ありませんでした。皆様が独立性の検定で泥の中から砂金をさらい、より快適なリスティング広告ライフを送れることを願っております。

まとめ

ABテストでは本当に意味がある数値なのか考えることが非常に大切です。

勿論、非常にクリック単価の高騰している商材や、早急なカイゼンが求められる場合など、ケースバイケースで数字を一定数で見限ることだって重要です。ただし、特に本当に意味のある数値なのかを考えること、どのようなリスクが潜んでいるかを理解していることが重要と言えます。

是非これらを理解した上で判断材料の1つとして考慮し、ABテストを回し、ユーザーの心をがっちり掴む広告文やランディングページを作って利益の最大化に励みましょう。走りながら考える、でも、走る前に最低限の基礎知識は持っておくことが重要ですね。

20150223-06

Jyunya Koyama

Jyunya Koyama

アナグラム株式会社クルー。 東京大学にて歴史学というウェブとかけ離れた学問を学んでいたものの、考えたことが費用対効果として可視化されるリスティング広告の魅力に憑りつかれ、2社のインターンを経て新卒でアナグラムに入社。コンサルタントとしてリスティング広告・Facebook広告の運用・コンサルティングを行っている。