🌟

ABテスト標準化を検討する

2022/05/05に公開

1

これは何か

業務でABテストを中心とする様々な効果検証設計を推進している。
ABテストを実施する上でどのような検討を実施すべきかを標準化し、検討漏れや属人性を排除したい。
CONSORT(Consolidated Standards of Reporting Trials)2010声明(Schulz et al., 2010)というRCTを報告するためのガイドラインがあるため、そこから一部抜粋して、個人的な経験から必要な項目を記載する。

タイトル

効果検証案件のタイトル。施策名で良い。

背景と目的

当該効果検証を実施するに至った背景と、当該検証の目的。

方法

デザイン

試験デザインの記述、割り付け比を含む試験開始後の重要な変更。
- どのように集団を分割し、どちらにどのような介入を加えるのか概要を記述する。

参加者

参加者の適格基準。
- 今回の検証対象となる母集団の条件は何かを記述する。

介入

再現性を担保できるように、介入の詳細、いつどのように介入が実施されたのかを記述する。

評価項目

今回検証すべき主要・副次評価項目（KPIやKPIに関連する指標など）とその定義、また、いつそれを評価するのかを記述する。
- ここで、施策実施判断を行うために必要な差がいくらか、有意水準をいくつに設定するかを検討する。
試験開始後に発生した評価項目の変更があれば、その内容と理由を記述する。

症例数

有意差判定に必要となるサンプルサイズ
- 事前に検出力分析とシミュレーションを行い、必要となるサンプルサイズは試算する。

実施法

誰が、どのように割り付けを実施するか。
- オンライン施策であれば、KARTEやVWOなどのABテストツールが自動でトラフィックを割り振りしてくれるが、オフライン施策の場合は、自分でランダムサンプリングを実施する必要がある。

統計学的方法

主要・副次的評価項目の比較に用いられた統計学的方法（独立性の検定、差の検定など）
交絡因子の調整など、追加的な解析の統計学的方法

結果

参加者の流れ

いつ、誰が、どの群に割り付けられたか
各群ごとに、無作為割り付け後に追跡不能になった人数、除外された人数とその理由

募集

対象者の募集期間と追跡期間を示す日付
- 例えばキャンペーンなどで、いつ告知を行い、いつキャンペーンが実施され、どのくらいの期間で対象者の追跡を行ったかを記述する
試験が終了あるいは中止した日付とその理由
- 逐次検定などで途中で検証終了した場合や、諸事情により継続困難となった場合など

ベースラインデータ

各群のベースラインにおける人口統計学、臨床的な特徴を示す表

評価項目と推定

主要、副次的評価項目それぞれについて各群の結果の要約、effect sizeの推定値と精度（95%信頼区間）

有害事象

検証に影響を与えるすべての重要な有害事象、あるいは意図しない有害事象を各群ごとにまとめる
- 例えば検証中に発生したシステム障害などで、UXに毀損が発生したと考えられる場合は、その期間を除外することなどが考えられる

考察

限界

試験の限界、バイアス・推測精度の低下の可能性とその原因、解析の多重性

一般化可能性

試験結果の一般化可能性（外的妥当性、適用可能性）
- 一部エリアなど限定的な範囲で検証した場合、施策を全体に展開した時に施策効果も同等の水準を維持できるか、オペレーション上可能かなどについて言及する。

解釈

試験結果の解釈、利害のバランス、他の関連するエビデンス
- ROIの導出や、対象者に実施した定性アンケートの情報など

Discussion

ログインするとコメントできます