🌟
ABテスト標準化を検討する
これは何か
業務でABテストを中心とする様々な効果検証設計を推進している。
ABテストを実施する上でどのような検討を実施すべきかを標準化し、検討漏れや属人性を排除したい。
CONSORT(Consolidated Standards of Reporting Trials)2010声明(Schulz et al., 2010)というRCTを報告するためのガイドラインがあるため、そこから一部抜粋して、個人的な経験から必要な項目を記載する。
タイトル
- 効果検証案件のタイトル。施策名で良い。
背景と目的
- 当該効果検証を実施するに至った背景と、当該検証の目的。
方法
デザイン
- 試験デザインの記述、割り付け比を含む試験開始後の重要な変更。
- どのように集団を分割し、どちらにどのような介入を加えるのか概要を記述する。
参加者
- 参加者の適格基準。
- 今回の検証対象となる母集団の条件は何かを記述する。
介入
- 再現性を担保できるように、介入の詳細、いつどのように介入が実施されたのかを記述する。
評価項目
- 今回検証すべき主要・副次評価項目(KPIやKPIに関連する指標など)とその定義、また、いつそれを評価するのかを記述する。
- ここで、施策実施判断を行うために必要な差がいくらか、有意水準をいくつに設定するかを検討する。
- 試験開始後に発生した評価項目の変更があれば、その内容と理由を記述する。
症例数
- 有意差判定に必要となるサンプルサイズ
- 事前に検出力分析とシミュレーションを行い、必要となるサンプルサイズは試算する。
実施法
- 誰が、どのように割り付けを実施するか。
- オンライン施策であれば、KARTEやVWOなどのABテストツールが自動でトラフィックを割り振りしてくれるが、オフライン施策の場合は、自分でランダムサンプリングを実施する必要がある。
統計学的方法
- 主要・副次的評価項目の比較に用いられた統計学的方法(独立性の検定、差の検定など)
- 交絡因子の調整など、追加的な解析の統計学的方法
結果
参加者の流れ
- いつ、誰が、どの群に割り付けられたか
- 各群ごとに、無作為割り付け後に追跡不能になった人数、除外された人数とその理由
募集
- 対象者の募集期間と追跡期間を示す日付
- 例えばキャンペーンなどで、いつ告知を行い、いつキャンペーンが実施され、どのくらいの期間で対象者の追跡を行ったかを記述する
- 試験が終了あるいは中止した日付とその理由
- 逐次検定などで途中で検証終了した場合や、諸事情により継続困難となった場合など
ベースラインデータ
- 各群のベースラインにおける人口統計学、臨床的な特徴を示す表
評価項目と推定
- 主要、副次的評価項目それぞれについて各群の結果の要約、effect sizeの推定値と精度(95%信頼区間)
有害事象
- 検証に影響を与えるすべての重要な有害事象、あるいは意図しない有害事象を各群ごとにまとめる
- 例えば検証中に発生したシステム障害などで、UXに毀損が発生したと考えられる場合は、その期間を除外することなどが考えられる
考察
限界
- 試験の限界、バイアス・推測精度の低下の可能性とその原因、解析の多重性
一般化可能性
- 試験結果の一般化可能性(外的妥当性、適用可能性)
- 一部エリアなど限定的な範囲で検証した場合、施策を全体に展開した時に施策効果も同等の水準を維持できるか、オペレーション上可能かなどについて言及する。
解釈
- 試験結果の解釈、利害のバランス、他の関連するエビデンス
- ROIの導出や、対象者に実施した定性アンケートの情報など
Discussion