🤔

より良い意思決定がしたいので、under-powered なテストを避けるためのABテスト設計方法を調べた

2024/02/23に公開

n週連続推薦システム系論文読んだシリーズ 37 週目の記事になります:)
ちなみに36週目は言語モデルと知識グラフを良い感じにalignして、knowledge-awareなニュース埋め込み表現を作る推薦手法DKNの論文を読んだでした!
(一応、推薦システムもオンライン実験するので許してください!:pray:)

はじめに:

本資料は、以下の参考資料を元にunder-powered なテストを避ける為のABテストの設計方法について調べ、自分なりの解釈・理解をまとめたものです:)
- 下記の参考文献たちと出会ったきっかけ :pray: Work In ProgressさんのPodcast配信 #145 Netflixから学ぶA/Bテストで間違った意思決定をしないためのプラクティス
- NetflixさんのABテストに関するブログ連載
- X(旧Twitter)さんのABテストのサンプルサイズに関するブログ
- web上でのコントロール実験に関するpracticeをまとめた論文
上記の文献ではABテストを経てより良い意思決定のための工夫として様々紹介されています。
本資料は、より良い意思決定のために意識すべきことの1つとして、under-powered なテストを避ける為の設計方法に焦点を当て、推薦システムを題材とした架空のABテストを想定しながら手順を整理します。
もし理解の誤りや気になる点などあれば、カジュアルに絵文字をつけてコメントしていただけると喜びます...!:thinking:

under-poweredなテストとは??

ABテストにおける二種類の不確実性

ABテストで得られる観測結果は、確率変数(=確率的に変動する値)なので、結果には不確実性がある。
- (ex. 公平なコインを100回投げた時の表の出る回数は、必ずしも100回中50回とは限らないよね...!)
ABテストによる意思決定には、大きく2種類の不確実性がある:
- Type I error: false positive
  - 本当は施策に効果がないのに、効果があると判定しちゃう。
- Type II error: false negative
  - 本当は施策に効果があるのに、効果がないと判定しちゃう。
under-poweredなテストは、Type II errorのリスクが高くなっちゃってるテストのこと。

under-poweredなテストとは??

under-poweredなテスト = 検出したい真の効果の大きさに対して、検出力(power, 指定した大きさの効果を正しく検出できる確率)が小さくなってしまっているテスト。
- under-poweredなテストだと... 本当は施策に効果があるのに効果がないと判定されてしまうリスク(i.e. false negativeの確率)が高くなってしまう。
-> under-poweredなテストを避ける為に、いい感じにABテストを設計する必要があるよね...!
- (なんとなく、ABテストでより良い意思決定をするための前提条件というか、必要条件なのかなという認識になりました...!たぶん十分条件ではない:thinking:)

(自分の理解)under-poweredなテストを避けるためになにを設計できる?

under-poweredなテストを避けるために、我々がABテスト開始前に設計できるのは、ざっくり以下の要素っぽい:
- significance level(有意水準):
  - 慣例では5%が採用される事が多い。domainによっては異なるのかも。
  - (Netflixさんのブログではacceptable false positive rateとも表現されてて、個人的にはこっちの方が直感的で意味がわかりやすくて好きぇ～:thinking:)
- postulated effect size(仮定された効果量):
  - 仮定された施策の効果の大きさ。検出力の値はABテストを経て検出したい効果量に依存するので、事前に設定しておく必要がある。
  - (これを指定しなくてもp値は算出できて、有意か否かの判定ができてしまうから罠だ...!:thinking:)
- sample size(サンプルサイズ):
  - ABテストで収集すべき実験単位のサンプル数(実験単位がユーザの場合はユーザ数)。
  - ざっくりサンプルサイズを増やしたら、小さい差を検出しやすくなって、検出力は上がる。
- metricの変動性:
  - metricの変動性(分散)によって、他の全ての条件が同じでも検出力が異なる。metricの変動性が大きく不安定であるほど、実験の不確実性が高くなる。
  - 評価に使用するmetricの選び方だったり、metricの変動性を抑える工夫が可能。

OECの選択と必要なサンプルサイズについて

OECの変動性がサンプルサイズに与える影響

practice論文では、OECとしてconversion rateと収益(revenue)をそれぞれ採用した例を紹介していました。
以下のシナリオ:
- ECサイトにて、既存ではだいたいユーザのうちの5%が購入にいたる。
- 購入するユーザは平均75ドルほど使うので、一人当たり収益は平均3.75ドル(ユーザのうち95％は0ドルなので)
- 一人当たり収益の標準偏差は30ドルとする。
  - (一人当たり収益が従う分布は、正規分布ではないよね。でも結局、標本平均は正規分布に従うと近似できるから、期待値と標準偏差がわかってれば、null distributionやalternative distributionを仮定できてOKか...!:thinking:)
有意水準5%のABテストで、OECの5%の改善を検出したいとする。必要なサンプルサイズは...
- OEC=conversion rate (binary metric)の場合:
  - $n = 16 \times \frac{0.05 \times (1-0.05)}{0.05 \times 0.05}^2 \approx 122,000人$
- OEC=収益 (non-binary metric) の場合:
  - $n = 16 \times \frac{30^2}{(3.75 \times 0.05)}^2 \approx 409000人$
→収益ではなくconversion rateをOECとして使用することで、実験に必要なサンプルサイズを1/3に減らせる。つまり、OEC=収益では6週間かかる実験が、OEC=conversion rateでは2週間に短縮できる。(or 実験に割り当てるユーザ割合を減らせる...!)
- 従って、変動性の低いOECを検討することは検討の余地がある...!。
OECは事前に決定すべきことに注意...!
- false positiveのリスクが高くなるので...!(familywise type I error)
- (複数のOECで何回も統計的仮説検定しちゃうと、多重検定になるから??:thinking:)

Trigger analysisとサンプルサイズの話

Trigger Analysis = 施策の影響を受けないユーザのフィルタリングし、施策の影響を受けた(i.e. Triggerされた)ユーザだけを分析対象とすること。

ex.) チェックアウト(ECサイトにおける決済)プロセスに変更を加えて、conversion rateをOECとする場合:

(感覚的にも、全ユーザをvariantに割り当てたとしても、実際にはチェックアウトプロセスを開始したユーザのみを分析する必要がありそうだよね:thinking:)
10%のユーザがチェックアウトを開始し、そのうちの50%のユーザがチェックアウトを完了すると仮定する。
OEC=conversin rateとして、OEC+5%の改善を検出したいとする。必要なサンプルサイズは...
- 全ユーザで分析する場合:
  - 前述の例と条件が同じなので、サンプルサイズは122,000人必要。
- Triggerされたユーザのみで分析する場合:
  - OECの平均が0.5, 標準偏差が0.5×(1-0.5)になる。
  - -> $16 \times \frac{0.5 \times (1-0.5)}{0.5 \times 0.05}^2 \approx 6400$ なので、チェックアウトを開始するユーザを6400人分取得できればOK!
  - チェックアウトを開始しないユーザが90%なので、全体で必要なサンプルサイズは6400/0.1=64000人。(サンプルサイズを1/2に減らせた...!)
→ Trigger AnalysisによってOECの標準偏差を小さくできると、検出力80%を得るために必要なサンプルサイズを減らせる。
- (特にbinary metricの場合、trigger analysisによって逆にOECの変動性があがっちゃうケースもあるのかも...? 例えばフィルタリングする前はp=0.5で、フィルタリングしたらp=0.8である場合とか...!:thinking:)
(OECの選択と同様に、Trigger Analysisするか否かも基本的に事前に決めたほうがよさそう...!というか、OECの選択の一部といえるかも:thinking:)

適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:

サンプルサイズめっちゃ増やしたらいいのでは??って話

サンプルサイズを増やしたら検出力あがるんなら、サンプルサイズを増やせるだけ増やしたらいいのでは??
- -> サンプルサイズを無限にできれば、どんなに微小な効果量でも、どんなに変動性が大きいOECを採用しても、under-poweredなテストを回避して高いtrue posive確率で有意だと判断できるじゃん...!
「どんなに微小な効果量でも、高い確率で検出できる」ことは、統計的に有意な結果を得ることができるという意味では確かに正しい。
- ただし統計的に有意な結果を得ることができたからといって、それが実務における意思決定の観点で有用な結果であるとは限らない。
  (- サンプルサイズをめっちゃ増やしたら、統計的に有意だと判断された際にその効果量が無意味なほど微小である可能性がどんどん高くなる...!:thinking:)
netflixさんブログでは、reasonable(合理的)でmeaningful(意味のある)な効果量を検出するために、適切なサンプルサイズを認識することが重要だと紹介されてた。
- ex.) ある施策によってOECが0.001%改善することを検出できたとしても、それは合理的かつ意味のある改善なのか...? (サンプルサイズをめっちゃ増やしたら0.001%の差でも有意って判定される可能性が高くなるし...!:thinking:)
reasonableについて:
- プロダクト改善やビジネスにおいてOECがどれだけ改善される事が合理的かは判断が難しい。ドメイン知識や過去の実績を踏まえて判断する必要がある。
  - あるOECの0.001%の改善が、プロダクト全体のKPIの改善に想定外に大きく寄与する可能性も0ではない。
meaningfulについて:
- 何がmeaningfulかは、実験の影響範囲(ユーザ体験, latency, バックエンドシステムの技術的なパフォーマンス, etc.)や、treatmentの労力やコストによって異なる。
- ex.OECの0.1%の改善によるビジネス上の利益よりも施策を導入&運用するコストが大きい場合、OECの0.01%の変化を高い確率で検出できるようなABテストを設計&実施する意味はない。
  - → そのようなサイズの効果を正しく検出できても、意思決定に意味のある(meaningfulな)変化ではないから...!
(思ったことメモ)
- 統計的仮説検定って結局binaryの結果 (=有意な差があると言えるか言えないか) しか出力しないから、仮に合理的で意味のある効果量に対して検出力0.8という設定で実験して、有意な結果が得られたとしても、本当は検出力0.1くらいの微小な効果量での1/10のtrue positiveを引いた可能性もあるんだよな～:thinking:
- 検出力(true positiveの確率) 0.8 って効果量で条件づけた確率だから、有意だった時に、単純に「80%の確率でこの施策の効果量はxxxです!」って判断できる訳では無いよな...! :thinking:
- だから「under-poweredな実験を避けるように設計する」ことは、良い意思決定をするための必要条件の1つだけど十分条件ではなくて、それ以外にも色々な要素を踏まえた上で意思決定をする必要がありそう...!:thinking:(secondary metricsも見よう! みたいな話とか...!参考資料に色々書いてあった!)

適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:

1. 施策のリスクの影響範囲を最小限に抑えられる:
- 施策(ex. 新機能)にはリスクが伴う。ユーザ体験の思わぬ悪化とか。
- より良い意思決定ができる可能性が高い & リスクを抑えた最小限のサンプルサイズでテストを実施できたら嬉しい...!
1. ユーザが同時に複数の実験に割り当てられる機会を減らせる:
- 複数の実験間の相互作用みたいなことを考慮して、効果を推論するのは難しいらしい。
- その相互作用の発生を抑える観点から、施策の影響を測定するのに1％のトラフィックで十分であれば、1％のみを使用する方が望ましい。
1. 1日あたりのTrafficからABテスト実施期間を決定できる:
- 逆に、適切なサンプルサイズを認識できていない場合、いつまでABテストを実施すればいいのかわからない...!
- 仮にABテストの観測データを使って統計的検定を行い、有意だと判断されなかった場合、その理由が「施策の効果が期待よりも小さかったから」なのか、「サンプルサイズが足りなかったから」なのかを区別する事ができない!
- → その結果、以下の悪影響がありそう。
  - ABテスト期間を延長しながら何度か検定を繰り返してしまい、false positiveのリスクが高くなる
  - サンプルサイズを過剰に増やしてしまい、not reasonable or not meaningfulな差に対して有意だと判定してしまうリスクが高くなる。
  - 次の施策や開発に取り掛かるタイミングが遅れ、開発リソースの無駄遣いにつながる...!

終わりに

より良い意思決定がしたいと思って、netflixさんやtwitterさんのテックブログや、practiceをまとめた論文を読んだよ!
- より良い意思決定をするために意識すべきことの内の1つ「under-poweredなABテストを避けること」のために、事前に設計できる要素を整理し理解をまとめたよ!
推薦システムのABテストを例に、最小サンプルサイズnの導出手順をまとめたよ!
- null distribution → rejection region → alternative distribution → power → n の手順で導出できそうだよ!
OECの選択とサンプルサイズの関連:
- 必要なサンプルサイズを小さくすることができるので、OECの変動性を小さくする工夫には検討する価値があるよ!
適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:
- サンプルサイズをめっちゃ増やせば検出力あがっていいんじゃないの??
  - -> 意思決定する上で価値の無い差を有意と判定してしまうリスクがめっちゃ上がっちゃうよ!
- 適切なサンプルサイズを認識し、最小限のサンプルサイズで実験する事には色々価値があるよ!
  - 逆に、適切なサンプルサイズを認識できていない場合、色々と不利益を被りそうだよ!
思った事:
- 統計的仮説検定って結局binaryの結果(=有意な差があると言えるか言えないか)しか返さないから、良い感じにサンプルサイズとか設計できたとしても不確実性は避けられないよ!
- だから「under-poweredな実験を避けるように設計する」ことは、良い意思決定をするための必要条件の1つだけど十分条件ではなくて、それ以外にも色々な要素を踏まえた上で意思決定をする必要がありそうだよ! (secondary metricsも見よう、みたいな話とか...!参考資料に色々書いてあった!)

最後まで読んでいただきありがとうございました!
もし気になった点や自分の理解に誤ってる点などあれば、ぜひカジュアルに絵文字をつけてコメントいただけるとめちゃめちゃ喜びます:)

参考文献:

下記の参考文献を見つけたきっかけWork In ProgressさんのPodcast配信
NetflixさんのABテストに関するブログ連載
X(旧Twitter)さんのABテストのサンプルサイズに関するブログ
web上でのコントロール実験に関するpracticeをまとめた論文

(おまけ)検出力が0.8になるようなサンプルサイズ $n$ を全探索してみる...!

最後に、実際にunder-poweredな実験を避ける為の良さげなサンプルサイズを、実際に算出を試みようと思います。

公式の導出過程は追えていないので、特定の条件の検出力を算出する処理を実装した上で、検出力が0.8を超えるようなサンプルサイズを全探索的に算出を試みます...!

検出力を算出する関数を用意

まずは特定の条件での検出力を算出する関数を実装します。

関数signature (i.e. 観察可能な振る舞い?) は以下のような感じにしてみます。

def calculate_statistical_power(
    null_distribution: ProbabilityDistribution,
    alternative_distribution: ProbabilityDistribution,
    acceptable_false_positive_rate: float = 0.05,
    alternative_hypothesis_type: AlternativeHypothesisType = AlternativeHypothesisType.GREATER_THAN,
) -> float:
    pass

引数としてnull distribution、alternative distribution、有意水準、検定のタイプ(片側検定とか!)を受け取り、検出力を返します。

単体テストは以下のような感じにしてみます。

def test_calculate_statistical_power() -> None:
    # Arrange:
    ## コインが公平じゃなくて、表が64%くらい出やすい不公平コインなんじゃないか、みたいなテストを想定してます(netflixさんのブログの例)
    n = 100

    null_distribution = ProbabilityDistribution(
        mean=0.5,
        std=np.sqrt(0.5 * (1 - 0.5) / n),
    )
    alternative_distribution = ProbabilityDistribution(
        mean=0.64,
        std=np.sqrt(0.64 * (1 - 0.64) / n),
    )

    acceptable_false_positive_rate = 0.05
    alternative_type = AlternativeHypothesisType.GREATER_THAN

    # Act
    actual_statistical_power = calculate_statistical_power(
        null_distribution,
        alternative_distribution,
        acceptable_false_positive_rate,
        alternative_type,
    )

    # Assert
    expected_statistical_power = 0.886 # この解答は、とりあえずchat gptに聞きました!
    assert np.isclose(actual_statistical_power, expected_statistical_power, atol=0.01)

このテストが通ることを目指し、実装の詳細を以下のように書いてみました。

from alternative_hypothesis_type import AlternativeHypothesisType
from normal_distribution import ProbabilityDistribution
from typing import Optional


def calculate_statistical_power(
    null_distribution: ProbabilityDistribution,
    alternative_distribution: ProbabilityDistribution,
    acceptable_false_positive_rate: float = 0.05,
    alternative_hypothesis_type: AlternativeHypothesisType = AlternativeHypothesisType.GREATER_THAN,
) -> float:
    left_critical_value, right_critical_value = get_rejection_region(
        null_distribution, acceptable_false_positive_rate, alternative_hypothesis_type
    )

    # 対立分布のうちrejection regionに含まれる部分の面積を算出
    true_positive_area = 0
    if left_critical_value:
        true_positive_area += alternative_distribution.cdf(left_critical_value)
    if right_critical_value:
        true_positive_area += 1 - alternative_distribution.cdf(right_critical_value)
    return true_positive_area / 1


def get_rejection_region(
    null_distribution: ProbabilityDistribution,
    acceptable_false_positive_rate: float,
    alternative_type: AlternativeHypothesisType,
) -> tuple[Optional[float], Optional[float]]:
    """critical valueのタプルを返す
    - 片側検定の場合は片方のみの値が入る
    """
    assert 0 < acceptable_false_positive_rate < 1

    has_left_rejection_region = alternative_type.has_left_rejection_region
    has_right_rejection_region = alternative_type.has_right_rejection_region

    if has_left_rejection_region and has_right_rejection_region:
        return (
            null_distribution.ppf(acceptable_false_positive_rate / 2),
            null_distribution.ppf(1 - acceptable_false_positive_rate / 2),
        )

    if has_left_rejection_region:
        return (null_distribution.ppf(acceptable_false_positive_rate), None)

    return (None, null_distribution.ppf(1 - acceptable_false_positive_rate))

テストが通るようになったので次へ行きます!

検出力が0.8になるようなサンプルサイズ $n$ を全探索する関数を用意

まず、以下のような単体テストを用意します。
今回は、OECとしてbinary metricを使用することを前提とした DesirableSampleSizeSimulatorWithBinaryMetricクラスを用意しました。(クラスにする必要はなかったかな~と迷いつつ...)

テストケースはpractice論文のsection 3.2の例の値を使ってみました。

def test_desirable_sample_size_calculation_with_binary_metric() -> None:
    # Arrange
    significance_level = 0.05 # i.e. acceptable false positive rate
    desirable_power = 0.8

    ## practice論文のsectin 3.2の例の値を使う
    control_metric_mean = 0.05
    treatment_metric_mean = control_metric_mean * (1 + 0.05)  # OEC5%の改善を仮定

    sut = DesirableSampleSizeSimulatorWithBinaryMetric(
        significance_level,
        desirable_power,
    )

    # Act
    desirable_sample_size_actual = sut.calculate(
        control_metric_mean,
        treatment_metric_mean,
    )

    # Assert
    expected = 121599  # 公式より 16 * (0.05 *(1-0.05))/(0.05 * 0.05)^2
    assert expected - 1000 <= desirable_sample_size_actual <= expected + 1000

単体テストがpassすることを目指し、以下のような実装を試みました。

import numpy as np
from alternative_hypothesis_type import AlternativeHypothesisType
from normal_distribution import ProbabilityDistribution
from statistical_power_calculation import calculate_statistical_power


class DesirableSampleSizeSimulatorWithBinaryMetric:
    def __init__(
        self,
        significance_level: float = 0.05,
        desirable_power: float = 0.8,
        alternative_type: AlternativeHypothesisType = AlternativeHypothesisType.GREATER_THAN,
    ) -> None:
        self.significance_level = significance_level
        self.desirable_power = desirable_power
        self.alternative_type = alternative_type

    def calculate(
        self,
        control_metric_mean: float,
        treatment_metric_mean: float,
    ) -> int:
        for sample_size in range(100, 10**10, 100):
            null_dist = self._create_null_distribution(control_metric_mean, sample_size)
            alternative_dist = self._create_alternative_distribution(
                control_metric_mean,
                treatment_metric_mean,
                sample_size,
            )
            power = calculate_statistical_power(
                null_dist,
                alternative_dist,
                self.significance_level,
                self.alternative_type,
            )
            if power >= self.desirable_power:
                return sample_size
        else:
            raise ValueError("The desirable sample size is not found. expected effect size is too small.")

    def _create_null_distribution(
        self,
        control_metric_mean: float,
        n: int,
    ) -> ProbabilityDistribution:
        null_mean = control_metric_mean - control_metric_mean
        null_std = np.sqrt(2 * control_metric_mean * (1 - control_metric_mean) / n)
        return ProbabilityDistribution(null_mean, null_std)

    def _create_alternative_distribution(
        self,
        control_metric_mean: float,
        treatment_metric_mean: float,
        n: int,
    ) -> ProbabilityDistribution:
        alternative_mean = treatment_metric_mean - control_metric_mean
        alternative_std = np.sqrt(
            treatment_metric_mean * (1 - treatment_metric_mean) / n
            + control_metric_mean * (1 - control_metric_mean) / n
        )
        return ProbabilityDistribution(alternative_mean, alternative_std)

しかし実はこの実装では、サンプルサイズの公式と一致するような出力を得る事ができませんでした...。:sob:
同様に、non-binary metric版もテストと実装を追加してみたのですが、結果も同様でやや過小な値になってしまいました...。うーん。
オーダー感とか、binary metricとnon-binary metricの大小関係は整合してるんだけど、やや過小な値 (公式の値の3/4くらい??) になってしまうな...:thinking:

binary metricの方:
- 公式から算出した値: 121599
- 実装から算出した値: 94800
non-binary metricの方:
- 公式から算出した値: 409600
- 実装から算出した値: 316600

null distributionとalternative distributionが得られた後の検出力の算出処理自体は問題なさそうなので、null distributionとalternative distributionの作り方に違いはありそう?...!:thinking:
(少なくとも公式では、controlとtreatmentに同じ標準偏差を仮定してるし...! でもnon-binary metricの方は、こっちの実装でもcontrolとtreatmentに同じ標準偏差を仮定してるんだよなぁ...:thinking:)

% pytest test_desirable_sample_size_calculation.py

...
========================================================== short test summary info ==========================================================
FAILED test_desirable_sample_size_calculation.py::test_desirable_sample_size_calculation_with_binary_metric - assert (121599 - 1000) <= 94800
FAILED test_desirable_sample_size_calculation.py::test_desirable_sample_size_calculation_with_non_binary_metric - assert (409600 - 1000) <= 316600
============================================================ 2 failed in 10.84s =============================================================

ちなみに、以下はnon-binary metric ver.の単体テストと実装です。

単体テスト:

def test_desirable_sample_size_calculation_with_non_binary_metric() -> None:
    # Arrange
    significance_level = 0.05
    desirable_power = 0.8

    ## practice論文のsectin 3.2の例に従い、OECを一人当たり収益とする
    control_metric_mean = 3.75  # 一人あたり平均3.75ドル
    metric_variance = 30**2  # OECの変動性=標準偏差30ドル
    treatment_metric_mean = control_metric_mean * (1 + 0.05)  # OECの5%の増加を仮定

    sut = DesirableSampleSizeSimulatorWithNonBinaryMetric(
        significance_level,
        desirable_power,
    )

    # Act
    desirable_sample_size_actual = sut.calculate(
        control_metric_mean,
        treatment_metric_mean,
        metric_variance,
    )

    # Assert
    expected = 409600  # 公式より 16 * (30)^2/(3.75 * 0.05)^2
    assert expected - 1000 <= desirable_sample_size_actual <= expected + 1000

実装:

class DesirableSampleSizeSimulatorWithNonBinaryMetric:
    def __init__(
        self,
        significance_level: float = 0.05,
        desirable_power: float = 0.8,
    ) -> None:
        self.significance_level = significance_level
        self.desirable_power = desirable_power

    def calculate(
        self,
        control_metric_mean: float,
        treatment_metric_mean: float,
        metric_variance: float,
    ) -> int:

        for sample_size in range(100, 10**10, 100):
            null_dist = self._create_null_distribution(
                control_metric_mean,
                metric_variance,
                sample_size,
            )
            alternative_dist = self._create_alternative_distribution(
                control_metric_mean,
                treatment_metric_mean,
                metric_variance,
                sample_size,
            )
            power = calculate_statistical_power(
                null_dist,
                alternative_dist,
                self.significance_level,
                AlternativeHypothesisType.GREATER_THAN,
            )
            if power >= self.desirable_power:
                return sample_size
        else:
            raise ValueError("The desirable sample size is not found. Please re-design the experiment.")

    def _create_null_distribution(
        self,
        control_metric_mean: float,
        metric_variance: float,
        n: int,
    ) -> ProbabilityDistribution:
        null_mean = control_metric_mean - control_metric_mean
        null_std = np.sqrt(2 * metric_variance / n)
        return ProbabilityDistribution(null_mean, null_std)

    def _create_alternative_distribution(
        self,
        control_metric_mean: float,
        treatment_metric_mean: float,
        metric_variance: float,
        n: int,
    ) -> ProbabilityDistribution:
        alternative_mean = treatment_metric_mean - control_metric_mean
        alternative_std = np.sqrt(2 * metric_variance / n)
        return ProbabilityDistribution(alternative_mean, alternative_std)

より良い意思決定がしたいので、under-powered なテストを避けるためのABテスト設計方法を調べた

はじめに:

under-poweredなテストとは??

ABテストにおける二種類の不確実性

under-poweredなテストとは??

(自分の理解)under-poweredなテストを避けるためになにを設計できる?

推薦システムの架空のABテストを例に、under-poweredなテストを避けつつ設計してみるぞ!

架空のABテストシナリオ

(ちなみに) 評価するmetric: binary metricかnon-binary metricか

サンプルサイズの導出作戦

手順1: null distribution(帰無分布)を描画する。

手順2: rejection region(棄却域)を描画する。

手順3: alternative distribution(対立分布)を描画する。

手順4: 検出力を計算する。

手順5: 検出力が0.8になるようなサンプルサイズ $n$ を探す。

(ちなみに) サンプルサイズの公式

(ちなみに) minimal detectable effectの考え方

OECの選択と必要なサンプルサイズについて

OECの変動性がサンプルサイズに与える影響

Trigger analysisとサンプルサイズの話

適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:

サンプルサイズめっちゃ増やしたらいいのでは??って話

適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:

終わりに

参考文献:

(おまけ)検出力が0.8になるようなサンプルサイズ $n$ を全探索してみる...!

検出力を算出する関数を用意

検出力が0.8になるようなサンプルサイズ $n$ を全探索する関数を用意

Discussion

はじめに:

under-poweredなテストとは??

ABテストにおける二種類の不確実性

under-poweredなテストとは??

(自分の理解)under-poweredなテストを避けるためになにを設計できる?

推薦システムの架空のABテストを例に、under-poweredなテストを避けつつ設計してみるぞ!

架空のABテストシナリオ

(ちなみに) 評価するmetric: binary metricかnon-binary metricか

サンプルサイズの導出作戦

手順1: null distribution(帰無分布)を描画する。

手順2: rejection region(棄却域)を描画する。

手順3: alternative distribution(対立分布)を描画する。

手順4: 検出力を計算する。

手順5: 検出力が0.8になるようなサンプルサイズ n を探す。

(ちなみに) サンプルサイズの公式

(ちなみに) minimal detectable effectの考え方

OECの選択と必要なサンプルサイズについて

OECの変動性がサンプルサイズに与える影響

Trigger analysisとサンプルサイズの話

適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:

サンプルサイズめっちゃ増やしたらいいのでは??って話

適切なサンプルサイズを認識 & 最小限のサンプルサイズで実験する価値:

終わりに

参考文献:

(おまけ)検出力が0.8になるようなサンプルサイズ n を全探索してみる...!

検出力を算出する関数を用意

検出力が0.8になるようなサンプルサイズ n を全探索する関数を用意

Discussion

手順5: 検出力が0.8になるようなサンプルサイズ $n$ を探す。

(おまけ)検出力が0.8になるようなサンプルサイズ $n$ を全探索してみる...!

検出力が0.8になるようなサンプルサイズ $n$ を全探索する関数を用意