失敗しないA/Bテストのための心構え

本日は、リスティング広告を筆頭とした運用型広告のフィールドで、揺れの少ないA/Bテスト（読み：えーびーてすと）を行うための心構えについてです。

A/Bテストとは

まずは恒例の定義から。

A/Bテスト（英: A/B testing）とは、主にインターネットマーケティングで行われる、施策判断のための試験の総称である。
狭義ではA/Bテストは仮説検定を指す俗称であるが、広義のA/Bテストはインターネットマーケティングにおける施策の良否を判断するために、2つの施策同士を比較検討する行為全般を指す。

引用元：A/Bテスト - Wikipedia

シンプルに、AとBのどちらが良いかを比べるテストですね。別名、スプリットテスト（スプリットランテスト）。

大量のパターンを一斉に試す場合は、多変量テストと呼ばれます。ページ内コンテンツの構成・色・配置を少しずつ変えるLPO（Landing Page Optimization｜ランディングページ最適化）などで用いられることが多い手法ですね。

運用型広告におけるA/Bテストは、広告訴求もしくはリンク先の違う2パターンの広告で平行配信。A対BでAが勝った場合、Bを停止してCを追加。これを繰り返していくのが王道かと思います。Facebookなどクリエイティブの新鮮さが求められる媒体や、配信量が多く検証のためのデータが短期間で多く確保できるアカウントだと、一気に5種類前後のクリエイティブを同時並行するケースも見られますね。

PDCAサイクルの過程で、数多繰り返される仮説・検証。その検証過程で広く愛されているA/Bテストは、シンプルで明快なことも人気の理由ですが、ちょっと扱いを間違えると、ゴールとは真逆の方向に突き進んでしまうことも珍しくありません。

では具体的に、どんなことに注意すべきでしょうか。本記事では主に、Google アドワーズやYahoo!プロモーション広告の検索連動型広告で、テキスト広告のA/Bテストを行う場合を例に考えてみようと思います。

A/Bテストとは
無意味なABテストはやめよう
テスト前に明確な仮説を立てる
比較条件を合わせる
他にもある。あんな揺れ、こんな揺れ
コンテンツ向け広告の場合
サンプル数の意識をもつ
期限意識をもつ
まとめ

無意味なABテストはやめよう

神は細部に宿ると言いますが、テキスト広告で、細部をほんの少しだけ変えるテストでは、正直あまり意味がありません。残念ですがユーザーは、広告の作り手側が思うほど、広告をしっかり見ていないのです。

ほんの少しの変更とは、例えば、訴求内容はまったく同じで記号のあるなしだけのテストだったり、訴求は同じで言い回しを少しだけ（例えば、「お得」と「おトク」など）変えることなどですね。実際にある程度のサンプル数のデータを見てみると、ほぼ変わらないパフォーマンスになることが少なくありません。あったとしても僅かな際に留まりますし、劇的な成果の向上は見込めないでしょう。

A/Bテストをする目的は、テストをすることや、やった感の演出ではなく、より良い成果を出していくことですよね。プロダクトライフサイクルにもよりますが、ユーザーへの見え方、配信のされ方も意識して、一目で違いの分かる訴求テストを繰り返す。その方がテストを行う意義もあり、より早く、正確な検証データを得て、改善に向けて前進していきやすい、健全な状態だと思います。

尚、細部だけ変えても良くないからと言って、一度に多数の要素・訴求を試すのも考え物です。例えば、価格訴求をしていた既存広告Aに対し、新広告Bでは、タイトル1で満足度訴求、タイトル2でリピート率訴求、広告文の本文で割引クーポン訴求みたいになると、どちらが勝っても残るのは困惑だけ。勝ち広告の何が良かったのかが分かりやすいように、変更点を明確に、特定しやすくするのがポイントですね。

テスト前に明確な仮説を立てる

Aが勝ったらこう、Bが勝ったらこう、という明確な仮説をテスト前に立てることも重要ですよね。テストの結果を見て勝ち負けの理由付けをしてしまうのでは、テストの意義がぼやけてしまいますし、訴求も何を言いたいのか伝わりづらい、ふんわりした表現になりがちです。

先ほどの大量の要素・訴求を同時に試すリスクとも通じる話ですが、価格なのか、価値なのか、ブランド推しなのか、訴求や表現はいろいろあれど、“誰に何を届けるのか”や7W1Hを念頭におき、意図のあるテスト訴求で設計することが大切です。

※7W1H・・・What（なに？）、Why（なぜ？）、When（いつ？）、Where（どこ？）、Who（だれ？）、Which（どっち？）、Whose（だれの？）、How（どうやって、どんな？）

比較条件を合わせる

基本であり、ある意味、最重要。そして意外とおざなりにされがちなのがこちら。比較条件を合わせることです。

A/Bテストはターゲットユーザーに「何を」見せるかのテストですが、「誰に」や「いつ」が変わってしまうと、確度の高いテストが行えなくなってしまいます。完全に対等な条件での比較は現実的ではありませんが、それでもテスト条件の”揺れ”要素をできる限り排除し、極力公平な条件下で比較を行うことが、信用性の高いABテストための前提条件と言えます。

例を挙げてみます。例えばこちら、どちらがクリック率の高い広告と言えるでしょうか。

広告A？　そうですね。この情報だけだとそう見えます。では、デバイス別に分割してみましょう。

そうなんです。全体で見ると広告Aの方がクリック率が高かったのに、デバイス別に見ていくと、PC・モバイル端末（スマホ）・タブレット……いずれも広告Bの方がクリック率が高くなっています。PCやタブレットよりもクリック率の高いスマホ広告の表示割合がB＜Aであるためですね。

モバイル端末とPCでは、画面の大きさも違い、検索を行なっているユーザーの状況も大きく変わりますよね。この事例では、それらの条件の違いを踏まえずにABテストの結果を本来の結果とは逆の判断してしまいかねません。

他にもある。あんな揺れ、こんな揺れ

デバイスの他にもいくつか、あるあるな揺れ要因を挙げると以下のようなケースが多いです。基本的に、ターゲティング・モチベーションの異なる要素はなるべく含まない方が良いですね。

・別媒体…例えばYahoo!とGoogleの合算値で見てしまうケース。媒体によって、掲載面のフォーマットや競合の出稿状況も異なりますし、スマホの割合はGoogleが圧倒的に多いなど、媒体ごとにデバイス割合も異なりますので、基本的には別で見た方が良いでしょう。

・広告種別…検索連動型広告とコンテンツ向け広告の合算。ターゲティングとして、そもそものモチベーションが異なるため、クリック率やコンバージョン率、クリック単価など全てが違い過ぎ、少しコンテンツ向け広告の割合が増えただけで簡単に結果や数値が覆ります。最悪です。検索とディスプレイは必ず別物として見ましょう。

・ターゲティング…広告主のサイトへ訪問済か未訪問かなど、ターゲティングされるユーザーの状況によっても大きく変動します。

・期間…同期間なら良いのですが、別期間比較をすると、繁忙期と通常期、閑散期などでトレンドが加わったり、メディア露出や市況要素も加わってくる場合があるので、例えば11月と12月（年末は普段と人の動きが大きく変わりますよね）の比較など別期間比較は極力避けた方が無難です。

要は、テスト領域を無作為に広げすぎると、単純な訴求の良し悪し比較ではない、余計な変数（揺れ）が増加してしまい、2つの広告データの公平さが徐々に失われていってしまうということですね。短期間で検証データのサンプル数が確保できるなら、余計な揺れや変数が極力ないセグメントでA/Bテストの結果を見ていくのがお勧めです。

コンテンツ向け広告の場合

ちなみにコンテンツ向け広告の場合、前述のほかに、広告のフォーマット（テキスト広告、イメージ広告のサイズごと、レスポンシブ広告など）や、配信手法（リマーケティング、サーチターゲティング、コンテンツターゲット、ノンターゲティングなど）が大きな変数として挙げられます。

300×250サイズのイメージ広告と、あらゆる広告枠のサイズに対応するレスポンシブ広告の比較など、本来比較してはいけないもの通しでA/Bテストはできません。

コンテンツ向け広告では、配信されるサイトや広告枠、ターゲットユーザーの属性・モチベーションによって、同じ訴求、同じA/Bテストの結果が全く異なる数値になることも珍しくありません。リマーケティングでは、ブランド名推し訴求がクリック率・コンバージョン率とも優位に立ったものの、既訪問者を除いた衝動買い狙いのコンテンツターゲットでは、ベネフィットやエッセンス訴求が売上に圧倒的貢献を果たすなんてことも日常茶飯事です。※

※補足）こちらはあくまで一例で、ブランド知名度や好感度が高かったり、CMやメディア露出量が多かったりで、衝動買い狙いにブランド名推しの方が刺さるケース（またはその逆）もゴマンとあります。正解は商材とユーザー、トレンドによって変わってくるので念のため。

紛れの少なくなるように、ミクロな視点・マクロな視点、さまざまな角度からデータを見て、変数になり得る要素をできるだけ取り除き、公平なフィールドにのせてあげれば、より良いA/Bテストを行う土壌が整ってくるかと思います。

サンプル数の意識をもつ

とはいえ、狭いセグメントだけに絞ると有意なテスト結果が得られる検証データのサンプル数が得られるまで時間がかかる！ PDCAサイクルが激遅になる！という場合もあるでしょう。その場合、少しずつ検証範囲を広げていくのもひとつの手段です。

デバイスや媒体など、変数が大きくなる可能性の高いものはできるだけ広げないのがベターですが、広げるとしたら必ず内訳もチェックして、全体結果と大きくズレがないか答え合わせするのが吉です。

また、短期間でサンプルを多く集めるために、同時並行でテストする広告の種類を多くし過ぎないことも大切です。ソーシャル広告でもない限り、できれば2種類、MAX3種類までのテストがお勧めです。

なお、YDNやGDNなどのコンテンツ向け広告の場合は、広告のフォーマットや配信面でクリック率やコンバージョン率が大きく異なる場合も多いので、似たような配信枠に表示される画像サイズごとに比較できると、揺れの少ない検証が行いやすいと思います。全サイズを比較することは現実的でなく効率も悪いため、配信量が他のサイズに比べて多く、検証データのサンプル数が大きくなりやすい広告サイズの300*250などでの比較が、スピード感も出やすくお勧めです。

参考：そのABテストの判断は本当に正しいのか？

期限意識をもつ

先ほどのサンプル数意識と繋がることですが、素早いPDCAのために、いつからいつまでテストを実施すれば判断に足るサンプル数が溜まりそうか、という期限意識をもって、プランニングすることも大切です。

期限意識がふんわりしていると、サンプル数が溜まるまで半年かかるようなインパクトもない激狭セグメントでテストを開始。ようやくサンプル数が溜まったときには、すでにテスト開始時からトレンドや市場状況もすっかり様変わりして、報告レポートを前に「このテスト、いったい何の意味があったんだ……」と、全員が脱力して終わることも。おそろしいですね。

ABテストの最中はいわば、もっとも効果の良いクリエイティブを常にはユーザーに見せられていない期間でもあります。速やかにテスト完了のジャッジができるよう、どの領域でテストを行うべきか、これまでの配信実績からシミュレーションし、十分なサンプル数が確保できる領域で、健全なテスト計画を立てましょう。

まとめ

以上、A/Bテストの結果をできるだけフラットに判断するための心構えについてでした。明確な意図をもって、揺れの少ないテスト結果が得られるよう、設計をしていくことが肝要ということですね。

ただ、ここまで書いてきておいて何ですが、テスト結果を遵守し、グループやターゲティングごとに細かく人の目と手でジャッジ・設定していく運用が常にベストだとは思いません。

大事なのはプロモーションの目的を達成するための成果。売上であったり、コンバージョン数であったり、予算内でのCPA改善であったり。A/Bテストも、あくまで成果をあげるためのひとつの手段ですよね。そのため、場合によっては人の手から放してテクノロジーにすべてを委ねる勇気も必要だと感じています。

以前、こんなことがありました。GDNのコンテンツターゲットで、広告のローテーション設定を「無期限にローテーション」とし、常に新しい訴求を入れてA/Bテストを実施。人の目で見て良い方の広告を残す、という運用を長年行ってきたアカウントで、ある日ふと、ローテーション設定を「コンバージョン重視で最適化」に変更。入札戦略（コンバージョンオプティマイザー）で自動化運用をしたところ、爆発的にコンバージョン数が伸び、数倍の売上をたたき出したのです。

後日細かく実績を見てみると、コンテンツターゲットのキーワード（配信面）ごとに、Google アドワーズのアルゴリズムが、コンバージョンを上げやすいと思われる広告を最速で出しわけていた形跡が見られ驚愕しました。人が行う判断より早く細かく正確に、多くの情報やシグナルをもとにA/Bテストのジャッジと割り振りが行われていたということですね。

これは一例に過ぎませんが、人の目と手でケアした方が良い、現実的に運用可能な領域と、人知が及ばず現実的に運用できない領域を見極めて、目的達成に何が一番良いかを考える。仮説を立て、試し、場合によってはA/Bテストの判断と更新サイクルをテクノロジーに一任する選択肢をもつ。そんな風に、時代の流れに沿って選択肢の引き出しを増やしつつ、充実した運用ライフを過ごしていきたいですね。