A/Bテスト(ランダム化比較実験)が有効な理由 & 有意差が出たのに成果が変わらない現象が起こるのは何故か?
※因果推論は奥が深く、まだ学習中であることもあり、説明に過不足あればご容赦ください。
A/Bテスト(ランダム化比較実験)とは?
考え方・概略
プロダクト改善やグロースハックで当たり前のように行われる「A/Bテスト(ランダム化比較実験)」は、因果関係を証明する最も有力な手法の1つで、これを上回る手法は基本的に存在しないそうです。
ランダム化比較実験は、介入群(test group)と対照群(control group)をランダムに割り当てることで、両群の差は理論上「介入があるかないか」の違いだけになり、それ以外の両群の結果に影響しそうな全ての特徴が似通っている状況を生み出すします。これにより、介入効果を最大限正確に推定することができる、というのが特徴です。
この説明だと少し固いので、私のイメージで言えば「パラレルワールドを作り出す」ことに似ていると考えています。
「介入があった世界線」と「介入がない世界線」を同時並行で進行させて、結果の違いを見比べれば、介入の影響を説明できるはずです。
もちろん、実際はパラレルワールドなんてない(かもしれません)のと、私の身体は一つしかないので、2つの世界線を同時並行で生きることはできません。
だからこそ、A/Bテストの考え方が役に立ちます。
サイト改善の例
例えばサイトの会員登録導線の改善を例にして、以下のようなA/Bテストを実行するとします。
ここでは、住所入力のサジェスト機能を導入して、入力の負担を軽減することで離脱を防ぎ、会員登録完了率の改善を狙った施策の効果を明確にしたいとします。
介入群 : 住所入力の際に郵便番号を入力するだけで、町域・番地までサジェストする機能を入れる。
対照群 : 何もせず、現行のまま。
繰り返しになりますが、それぞれにランダムにユーザーを割り当てることで、両群の差は理論上「サジェスト機能があるかないか」の違いだけになり、それ以外の両群の結果に影響しそうな全ての特徴が似通っているという状況を生み出すことができます。
もちろん、ユーザー数の規模がある程度ないと成立しないのですが、ある程度の規模になれば、両群の年齢の分布、男女比、年収の分布などのデモグラフィックな特徴だけではなく、価値観、性格、好みなどのサイコグラフィックな特徴も両群に偏りなくバランスよく分布するはずです。
この状況下で、介入群と対照群の「会員登録完了率」の差を比較することで、サジェスト機能の純粋な因果効果(会員登録完了率の改善に寄与したかどうか)を説明できるようになります。
※実際には、検定により有意差があるか判断する必要があるのですが、ここでは省略します。
何故、介入群と対照群の2つにスプリットする必要があるのか?
よくある間違いは、とりあえずこの機能をリリースして、後で「リリース前の会員登録完了率」と「リリース後の会員登録完了率」を比較して、後者が高いという事実を根拠に「サジェスト機能で改善できた!」と判断するケースです(これを前後比較モデリングと呼びます)。
この方法の落とし穴は「トレンドの影響を考慮できていない」ことにより、いくらでも反例を提示できてしまうことです。
反例としては、以下のようにいろんな観点で疑うことができてしまいます。
- リリース前に実施した広告キャンペーンが当たり、リリース後にたまたま利用意向度の高いユーザーが流入しただけなのでは?
- リリース後に年末年始に入ったので、仕事中や移動中など忙しい状況下で会員登録を進める人がいなかったのでは?
- 数ヶ月前に実施した別の改善施策がやっと浸透して、いま効果が出始めただけなのでは?
だからこそ、介入群と対照群の2つにスプリットして、介入以外の結果に影響する特徴が全てに通っている状況を作り、同じ期間を同時並行で走らせることで、こういった「トレンドの影響」も同じ条件にする必要があります。
現実問題では、早く機能をリリースしないといけない事業状況だったり、小さい改善にはそのコストを払えなかったり、何でもかんでもA/Bテストできる状況ではないこともあります。
そういう場合、かつ、ある程度施策が成果につながる仮説に自信が持てている場合は、前後比較モデリングで明確な差が生まれることを確認し、「因果効果があった!」と判断することもあります。
このように、ビジネスジャッジで前後比較モデリングを許容するケースはあります。
補足 :
「原因と結果の経済学」という書籍が、因果推論の基礎が非常にわかりやすく解説されているので、こちらも一読することをおすすめします。
A/Bテストで有意差が出ても成果が変わらないのは何故か?
A/Bテストで有意な差が出で、介入させたものを全ユーザーに実装したにも関わらず成果が得られないという現象がたまに発生します。
これは一般的に「外的妥当性の欠如」または「一般化可能性の問題」と呼ばれるそうです。
この問題の原因としては、以下のようなものが考えられます。
A/Bテストの結果を過信せず、A/Bテストの結果を根拠に施策実施した後も、パフォーマンスを監視しながらこれらの原因を疑い続ける必要があります。
1. サンプルの代表性不足
テストに参加したサンプルが、対象の母集団を正確に代表できていない現象です。
例えば、以下のような例ですが、要は、サンプリングの時点で母集団から偏った抽出をしてしまうセレクションバイアスですね。
- 地理的な偏り :
- 例えば、東京でのみA/Bテストを実施し、その結果を全国に適用しようとするようなケースです。
- 私は岩手県出身ですが、大都会東京の常識と、岩手県での常識は違うのです...
- デモグラフィックな偏り :
- 例えば、若年層のユーザーが多いサービスで、高齢者向けの機能をテストするケースです。
- 当たり前ですが、若年層にウケたものが、高齢者にもウケるとは限らないですね。
- 利用環境の偏り :
- PCユーザーのみを対象にテストを実施し、モバイルユーザーの行動を考慮していないようなケースです。
- 例えば、個人でPCを保有するユーザーは、エンジニアだったりwebデザイナーなど、IT関連の職種だったり、PCを使っているシチュエーションは家やカフェで時間的に余裕がある状態でwebを回遊する一方、モバイルだと電車の中や歩きながらなど、その場で購買行動を実施できなかったりしますよね。
- ユーザーの行動状況の偏り :
- 既存ユーザーのみを対象にテストを実施し、新規ユーザーの反応を考慮していないようなケースです。
- A/Bテストで有効だった機能を実装した場合、既存ユーザーはサービス理解が進んでいる前提がありそうですが、右も左もわからない新規ユーザーは結構事情が違かったりしますよね。
- 右も左もわからない状態で新規獲得しているのは、ある意味マーケティングの失敗なのですが...
A/Bテストを設計する際は、これらの偏りを認識して、可能な限りランダムかつ幅広いユーザー層を含めることがことが重要になります。
2. ホーソン効果
テスト参加者が、観察されていることを意識して行動が変化してしまう現象です。
例えば、あるクラスには新しい数学のカリキュラムを実施し、他のクラスではいままで通りのカリキュラムを実施することで、新しいカリキュラムの効果を検証したいとします。
生徒たちは、新しいカリキュラムを実施するということと、先生によく観察されているという事情を自覚することで、今まで以上に学習に集中したり、意気込んでいままでより自学習を頑張る可能性があります。
この場合、新しいカリキュラムに効果があったようで、実は生徒たちの意識が変わったことが本当の因果効果であるということが言えてしまいます。
インターネットサービスやアプリにおけるデザインや機能のA/Bテストにおいては、ユーザー自身がテストの対象になっていると自覚することは基本ないと思うので、起こりにくい現象だとは思います。
3. 時期的な変化
テスト期間とテスト後の施策実行期間の間に、市場環境や顧客行動が変化してしまうような現象です。
例えば、夏にのみA/Bテストを実施し、その結果を通年に適用しようとするようなケースです。
サービスによっては、季節によって顧客の行動が大きく異なる可能性があるので、夏に実施したA/Bテストの結果を適用しても、他の季節ではその介入が意味をなさなかったり、行動率が落ちてオフセット(相殺)されることがあります。
4. 統計的誤差
検定において、有意水準を5%に設定した場合、20回に1回は偽陽性(第一種の過誤)が生じる可能性があります。
Discussion