🌟

ABテスト標準化を検討する

2022/05/05に公開

これは何か

業務でABテストを中心とする様々な効果検証設計を推進している。
ABテストを実施する上でどのような検討を実施すべきかを標準化し、検討漏れや属人性を排除したい。
CONSORT(Consolidated Standards of Reporting Trials)2010声明(Schulz et al., 2010)というRCTを報告するためのガイドラインがあるため、そこから一部抜粋して、個人的な経験から必要な項目を記載する。

タイトル

  • 効果検証案件のタイトル。施策名で良い。

背景と目的

  • 当該効果検証を実施するに至った背景と、当該検証の目的。

方法

デザイン

  • 試験デザインの記述、割り付け比を含む試験開始後の重要な変更。
    • どのように集団を分割し、どちらにどのような介入を加えるのか概要を記述する。

参加者

  • 参加者の適格基準。
    • 今回の検証対象となる母集団の条件は何かを記述する。

介入

  • 再現性を担保できるように、介入の詳細、いつどのように介入が実施されたのかを記述する。

評価項目

  • 今回検証すべき主要・副次評価項目(KPIやKPIに関連する指標など)とその定義、また、いつそれを評価するのかを記述する。
    • ここで、施策実施判断を行うために必要な差がいくらか、有意水準をいくつに設定するかを検討する。
  • 試験開始後に発生した評価項目の変更があれば、その内容と理由を記述する。

症例数

  • 有意差判定に必要となるサンプルサイズ
    • 事前に検出力分析とシミュレーションを行い、必要となるサンプルサイズは試算する。

実施法

  • 誰が、どのように割り付けを実施するか。
    • オンライン施策であれば、KARTEやVWOなどのABテストツールが自動でトラフィックを割り振りしてくれるが、オフライン施策の場合は、自分でランダムサンプリングを実施する必要がある。

統計学的方法

  • 主要・副次的評価項目の比較に用いられた統計学的方法(独立性の検定、差の検定など)
  • 交絡因子の調整など、追加的な解析の統計学的方法

結果

参加者の流れ

  • いつ、誰が、どの群に割り付けられたか
  • 各群ごとに、無作為割り付け後に追跡不能になった人数、除外された人数とその理由

募集

  • 対象者の募集期間と追跡期間を示す日付
    • 例えばキャンペーンなどで、いつ告知を行い、いつキャンペーンが実施され、どのくらいの期間で対象者の追跡を行ったかを記述する
  • 試験が終了あるいは中止した日付とその理由
    • 逐次検定などで途中で検証終了した場合や、諸事情により継続困難となった場合など

ベースラインデータ

  • 各群のベースラインにおける人口統計学、臨床的な特徴を示す表

評価項目と推定

  • 主要、副次的評価項目それぞれについて各群の結果の要約、effect sizeの推定値と精度(95%信頼区間)

有害事象

  • 検証に影響を与えるすべての重要な有害事象、あるいは意図しない有害事象を各群ごとにまとめる
    • 例えば検証中に発生したシステム障害などで、UXに毀損が発生したと考えられる場合は、その期間を除外することなどが考えられる

考察

限界

  • 試験の限界、バイアス・推測精度の低下の可能性とその原因、解析の多重性

一般化可能性

  • 試験結果の一般化可能性(外的妥当性、適用可能性)
    • 一部エリアなど限定的な範囲で検証した場合、施策を全体に展開した時に施策効果も同等の水準を維持できるか、オペレーション上可能かなどについて言及する。

解釈

  • 試験結果の解釈、利害のバランス、他の関連するエビデンス
    • ROIの導出や、対象者に実施した定性アンケートの情報など

Discussion