🦆

セレクションバイアスとRCT

に公開

0. 傾向スコア理解のための学習

今回の案件で実施する傾向スコアを使用した傾向スコアマッチングと逆確率重み付けを理解する為に必要な知識の習得を目標として整理します。
学習には下記の『効果検証入門』を参考としました。

1. セレクションバイアスとは?

一言で

「扱う集団(サンプル)や処置群対照群の分け方が偏っているために、本当の効果とズレた推定をしてしまう」現象です。

具体例に

例えばブラックフライデーに大きな収益を期待する場合、大抵の会社は大々的に宣伝広告を打ちますよね?
でもそれってKPIに対して効果があるのでしょうか。
費用ばかりが掛かってあまり利益が出ていないようでは意味がないため、本当に宣伝広告という処置に効果があるのかを調べる必要があります。
ブラックフライデーの広告効果を評価する際には、代表的に以下の3つのセレクションバイアスに注意が必要です。

1. イベント効果
ブラックフライデーという時点(特別セール日)自体が需要を増大させる影響
2. 配信側の選別バイアス
広告配信で“もともと買いやすい層”をターゲティングしている/広告主が選んで配信することで生じる偏り
3. 受信側の選択バイアス
広告を「積極的に見る・クリックする」かどうか、ユーザー自身の行動選択が購買意欲と強く結びついている偏り

これらが重なると、単純に「広告を見た人の売上 - 見なかった人の売上」では純粋な広告効果を測れません。
下記の画像が参考例で、左が広告を打たない場合、右が広告を打った場合です。
上記の通り、広告を打つ場合には様々なバイアスが掛かるため、バイアスを考慮せずに左右で単純比較してしまうと宣伝効果を過大評価してしまうことになります。
そのため、セレクションバイアスを取り除いたうえで広告効果を測る手段が必要になりそうです。

セレクションバイアスの例

典型例

セレクションバイアスの典型例をいくつかピックアップします。

  • クーポンを「申し込んだ人」だけに配布し、その効果を測る
    → 申し込む人は元々購入意欲が高い可能性がある(自己選択)。
  • 健康食品の効果を「飲み続けた人」だけで評価
    → 体調が良い人ほど飲み続けやすい(脱落による偏り)。
  • Webアンケートで「回答してくれた人」だけを分析
    → 忙しい人/興味が薄い人は回答しない(非回答バイアス)。

2. RCT(ランダム化比較試験)とは?

一言で

処置(介入)をランダムに割り当て、処置群と対照群を作り、差を効果として推定する理想的な手法です。

具体的に

ブラックフライデー広告の例で言えば、まず「何を良くしたいのか」をはっきり決めます。
今回は“広告によって売上(あるいは購入率)がどれだけ上がるか”を知りたい、と目的と指標を先に固定します。
次に、広告を届ける可能性のあるユーザー全体を集め、その人たちを人の恣意を挟まずにランダムに二つのグループへ振り分けます。片方には広告を配信し(処置群)、もう片方には配信しない(対照群)。
この「サイコロ任せ」の割り当てによって、元々買いやすい層だけが広告を見る、といったセレクションバイアスの芽を事前に摘むことができます。

割り当てが済んだら、実際に広告を流し、両グループで同じ期間・同じ方法で結果を測定します。ログの取り方や計測期間が違えば、せっかくのランダム化も意味が薄れるのでここは丁寧に揃えます。
観測が終わったら、処置群と対照群の平均アウトカムを引き算するだけで効果が推定できます。ランダム化のおかげで、この差には基本的に「広告の効果」と「偶然のブレ」しか混ざりません。
最後に、本当にランダム化が機能していたか(配信前の属性分布が似ているか)、途中で広告を受け損ねた人や勝手に受けた人がいなかったか(非遵守)、結果を測れなかった人が偏っていないか(脱落)といった点を確認しておけば、RCTとしての信頼性はさらに高まります。

要するに、RCTは「比べる相手を最初から公平に作る」ことで、セレクションバイアスをほぼ無視して効果を素直に読めるようにする仕組みなのです。


RCT設計の基本ステップ(チェックリスト)

  1. 目的をはっきりさせる
    まず、「この実験で何を改善したいのか」を明確にします。たとえば「広告表示で売上を何%伸ばしたいのか」「新機能でユーザーの継続率を何%上げたいのか」など、最も重要な指標(一次エンドポイント)を1つに絞りましょう。

  2. 誰に/何に割り当てるか決める
    次に、実験対象を特定します。ユーザー全員なのか、一部の会員なのか。あるいは店舗や地域、日にち単位でテストするか。単位を決めることで、どの母集団からサンプルを取るかがクリアになります。

  3. 必要なサンプル数を計算する
    どれくらいの人数(または件数)があれば、有意に効果を検出できるかを事前に見積もります。想定する効果の大きさ(効果量)、許容する第1種誤り(α)・第2種誤り(β)を決め、最小検出可能効果(MDE)を基にサンプルサイズを算出します。

  4. 割り当て方法を選ぶ
    被験者をどうやって処置群(広告を出す)と対照群(広告を出さない)に振り分けるかを決定します。完全にランダムにする方法のほか、性別や過去購入額などで層を分けて均等にする「ブロックランダム化」や、店舗や地域単位でまとめて割り当てる「クラスタランダム化」などがあります。

  5. バイアス対策を講じる
    実験中の偏りを防ぎます。たとえば、可能であれば「どちらの群に入ったか」を測定者に伏せる盲検化(ブラインド)を行う、実際に広告が届いたかどうかの遵守状況を追跡する、途中で離脱したユーザーの扱い(欠測)ルールをあらかじめ定める、などです。

  6. 実施手順とデータ管理を定める
    広告の配信タイミング、ログの取り方、データ品質チェックの方法、実験期間、途中解析や中止ルールなどを文書化します。誰がいつ何を担当するのかを明らかにしておくことで、運用のブレを防ぎます。

  7. 解析計画を事前に登録する
    どの指標をいつ・どう分析するか、仮説やサブグループ解析のルールも含めて公開または社内登録します。あとから結果に合わせて分析手法を変える(HARKing)を防ぎ、意図せぬ切り口での解釈を避けます。基本は「割り当てベース(ITT解析)」で結果を評価します。

  8. 結果を解釈し、他への適用可能性を考える
    実験で得られた効果が「その環境でだけの偶然」ではないかどうかを検証します。別のユーザー層や他の時期、他の地域でも同様の効果が見込めるか、あるいは倫理的・コスト的に導入可能かを評価し、最終的な意思決定に結びつけます。


3. RCTでも起こり得るバイアス(油断禁物)

  • 非遵守・クロスオーバー:処置群が介入を受けない/対照群が受ける
  • 脱落・欠測:測定できなかったアウトカムの偏り
  • 測定バイアス:アウトカムの測定方法が群で異なる
  • 外的妥当性の欠如:実験環境が現場と違い過ぎる

→ 事前のプロトコル設計、ロギング、補完手法(多重代入など)、感度分析が重要。


4. RCTができない/しにくい場合の代替

RCTは最も理想的な効果検証実験ですが、実際の現場ではコストや倫理の観点でRCTが出来ない場合もあるため、代替策として下記のような分析方法が考案されています。

  • 準実験デザイン(Quasi-experiments)

    • 差分の差分(DiD)
    • 回帰不連続(RDD)
    • 合成コントロール
    • 傾向スコアマッチング(PSM)・逆確率重み付け(IPW)
    • 操作変数法(IV)
      これらはセレクションバイアスを「統計的に補正」するアプローチです。

この中で、傾向スコアマッチングと逆確率重み付けについてこれから学んでいきます。


5. まとめ(要点だけ振り返り)

  • セレクションバイアス

    • 群の分け方や観測サンプルに偏りがあると「効果推定が歪む」。
    • ランダム化できない観察データでは特に注意。
    • 発生経路を明確化し、設計段階で防ぐか、統計手法で補正する。
  • RCT

    • ランダム化で交絡要因を断ち切り、因果推論を単純化。
    • 設計(目的・指標・サンプルサイズ・割付方法)と運用(遵守・脱落対策)が鍵。
    • 現場適用での倫理・コスト・外的妥当性への配慮も必要。

用語集

  • KPI : Key Performance Indexの略で、目標に向けた進捗を数値的に評価するための指標のことです。最終目標## 0. 傾向スコア理解のための学習

今回の案件で実施する傾向スコアを使用した傾向スコアマッチングと逆確率重み付けを理解する為に必要な知識の習得を目標として整理します。
学習には下記の『効果検証入門』を参考としました。

1. セレクションバイアスとは?

一言で

「扱う集団(サンプル)や処置群・対照群の分け方が偏っているために、本当の効果とズレた推定をしてしまう」現象です。

具体例に

例えばブラックフライデーに大きな収益を期待する場合、大抵の会社は大々的に宣伝広告を打ちますよね?
でもそれってKPIに対して効果があるのでしょうか。
費用ばかりが掛かってあまり利益が出ていないようでは意味がないため、本当に宣伝広告という処置に効果があるのかを調べる必要があります。
ブラックフライデーの広告効果を評価する際には、代表的に以下の3つのセレクションバイアスに注意が必要です。

1. イベント効果
ブラックフライデーという時点(特別セール日)自体が需要を増大させる影響
2. 配信側の選別バイアス
広告配信で“もともと買いやすい層”をターゲティングしている/広告主が選んで配信することで生じる偏り
3. 受信側の選択バイアス
広告を「積極的に見る・クリックする」かどうか、ユーザー自身の行動選択が購買意欲と強く結びついている偏り

これらが重なると、単純に「広告を見た人の売上 - 見なかった人の売上」では純粋な広告効果を測れません。
下記の画像が参考例で、左が広告を打たない場合、右が広告を打った場合です。
上記の通り、広告を打つ場合には様々なバイアスが掛かるため、バイアスを考慮せずに左右で単純比較してしまうと宣伝効果を過大評価してしまうことになります。
そのため、セレクションバイアスを取り除いたうえで広告効果を測る手段が必要になりそうです。

セレクションバイアスの例

典型例

セレクションバイアスの典型例をいくつかピックアップします。

  • クーポンを「申し込んだ人」だけに配布し、その効果を測る
    → 申し込む人は元々購入意欲が高い可能性がある(自己選択)。
  • 健康食品の効果を「飲み続けた人」だけで評価
    → 体調が良い人ほど飲み続けやすい(脱落による偏り)。
  • Webアンケートで「回答してくれた人」だけを分析
    → 忙しい人/興味が薄い人は回答しない(非回答バイアス)。

2. RCT(ランダム化比較試験)とは?

一言で

処置(介入)をランダムに割り当て、処置群と対照群を作り、差を効果として推定する理想的な手法です。

具体的に

ブラックフライデー広告の例で言えば、まず「何を良くしたいのか」をはっきり決めます。
今回は“広告によって売上(あるいは購入率)がどれだけ上がるか”を知りたい、と目的と指標を先に固定します。
次に、広告を届ける可能性のあるユーザー全体を集め、その人たちを人の恣意を挟まずにランダムに二つのグループへ振り分けます。片方には広告を配信し(処置群)、もう片方には配信しない(対照群)。
この「サイコロ任せ」の割り当てによって、元々買いやすい層だけが広告を見る、といったセレクションバイアスの芽を事前に摘むことができます。

割り当てが済んだら、実際に広告を流し、両グループで同じ期間・同じ方法で結果を測定します。ログの取り方や計測期間が違えば、せっかくのランダム化も意味が薄れるのでここは丁寧に揃えます。
観測が終わったら、処置群と対照群の平均アウトカムを引き算するだけで効果が推定できます。ランダム化のおかげで、この差には基本的に「広告の効果」と「偶然のブレ」しか混ざりません。
最後に、本当にランダム化が機能していたか(配信前の属性分布が似ているか)、途中で広告を受け損ねた人や勝手に受けた人がいなかったか(非遵守)、結果を測れなかった人が偏っていないか(脱落)といった点を確認しておけば、RCTとしての信頼性はさらに高まります。

要するに、RCTは「比べる相手を最初から公平に作る」ことで、セレクションバイアスをほぼ無視して効果を素直に読めるようにする仕組みなのです。


RCT設計の基本ステップ(チェックリスト)

  1. 目的をはっきりさせる
    まず、「この実験で何を改善したいのか」を明確にします。たとえば「広告表示で売上を何%伸ばしたいのか」「新機能でユーザーの継続率を何%上げたいのか」など、最も重要な指標(一次エンドポイント)を1つに絞りましょう。

  2. 誰に/何に割り当てるか決める
    次に、実験対象を特定します。ユーザー全員なのか、一部の会員なのか。あるいは店舗や地域、日にち単位でテストするか。単位を決めることで、どの母集団からサンプルを取るかがクリアになります。

  3. 必要なサンプル数を計算する
    どれくらいの人数(または件数)があれば、有意に効果を検出できるかを事前に見積もります。想定する効果の大きさ(効果量)、許容する第1種誤り(α)・第2種誤り(β)を決め、最小検出可能効果(MDE)を基にサンプルサイズを算出します。

  4. 割り当て方法を選ぶ
    被験者をどうやって処置群(広告を出す)と対照群(広告を出さない)に振り分けるかを決定します。完全にランダムにする方法のほか、性別や過去購入額などで層を分けて均等にする「ブロックランダム化」や、店舗や地域単位でまとめて割り当てる「クラスタランダム化」などがあります。

  5. バイアス対策を講じる
    実験中の偏りを防ぎます。たとえば、可能であれば「どちらの群に入ったか」を測定者に伏せる盲検化(ブラインド)を行う、実際に広告が届いたかどうかの遵守状況を追跡する、途中で離脱したユーザーの扱い(欠測)ルールをあらかじめ定める、などです。

  6. 実施手順とデータ管理を定める
    広告の配信タイミング、ログの取り方、データ品質チェックの方法、実験期間、途中解析や中止ルールなどを文書化します。誰がいつ何を担当するのかを明らかにしておくことで、運用のブレを防ぎます。

  7. 解析計画を事前に登録する
    どの指標をいつ・どう分析するか、仮説やサブグループ解析のルールも含めて公開または社内登録します。あとから結果に合わせて分析手法を変える(HARKing)を防ぎ、意図せぬ切り口での解釈を避けます。基本は「割り当てベース(ITT解析)」で結果を評価します。

  8. 結果を解釈し、他への適用可能性を考える
    実験で得られた効果が「その環境でだけの偶然」ではないかどうかを検証します。別のユーザー層や他の時期、他の地域でも同様の効果が見込めるか、あるいは倫理的・コスト的に導入可能かを評価し、最終的な意思決定に結びつけます。


3. RCTでも起こり得るバイアス(油断禁物)

  • 非遵守・クロスオーバー:処置群が介入を受けない/対照群が受ける
  • 脱落・欠測:測定できなかったアウトカムの偏り
  • 測定バイアス:アウトカムの測定方法が群で異なる
  • 外的妥当性の欠如:実験環境が現場と違い過ぎる

→ 事前のプロトコル設計、ロギング、補完手法(多重代入など)、感度分析が重要。


4. RCTができない/しにくい場合の代替

RCTは最も理想的な効果検証実験ですが、実際の現場ではコストや倫理の観点でRCTが出来ない場合もあるため、代替策として下記のような分析方法が考案されています。

  • 準実験デザイン(Quasi-experiments)

    • 差分の差分(DiD)
    • 回帰不連続(RDD)
    • 合成コントロール
    • 傾向スコアマッチング(PSM)・逆確率重み付け(IPW)
    • 操作変数法(IV)
      これらはセレクションバイアスを「統計的に補正」するアプローチです。

この中で、傾向スコアマッチングと逆確率重み付けについてこれから学んでいきます。


5. まとめ(要点だけ振り返り)

  • セレクションバイアス

    • 群の分け方や観測サンプルに偏りがあると「効果推定が歪む」。
    • ランダム化できない観察データでは特に注意。
    • 発生経路を明確化し、設計段階で防ぐか、統計手法で補正する。
  • RCT

    • ランダム化で交絡要因を断ち切り、因果推論を単純化。
    • 設計(目的・指標・サンプルサイズ・割付方法)と運用(遵守・脱落対策)が鍵。
    • 現場適用での倫理・コスト・外的妥当性への配慮も必要。

用語集

  • 処置(介入) : KPIのような目的に対して効果をもたらすアクションのこと。今回の例では売り上げに対する広告戦略。処置を行ったグループのことを処置群と呼ぶ。
  • 対照群 : 処置の効果を調べる際、その処置をしないグループのこと。植物の光合成を確認する実験で、葉にワセリンを塗るグループ(処置)と塗らないグループ(対照)に分けましたよね。
  • KPI : Key Performance Indexの略で、目標に向けた進捗を数値的に評価するための指標のことです。最終目標に到達するための中間目標として設定されます。
  • アウトカム : 実験や施策の効果を測るために観測する「結果指標」

Discussion