💡

2群の比率の差の検定のサンプルサイズ設計（両群のサンプルサイズが異なる場合）

2023/11/15に公開

統計

統計学

tech

はじめに

A/Bテストなどで2群の比率の差を検定する場合、サンプルサイズを設計します。多くの場合は、サンプルサイズは両群で同じですが、稀に両群で異なるサンプルサイズでしか取得できないケースもあると思います。両群のサンプルサイズが異なる場合のサンプルサイズの公式の導出は、ネットの上の日本語のページでは見つけられなかったので、まとめておきます。

参考文献

以下の書籍に両群のサンプルサイズが異なる場合のサンプルサイズの公式が紹介されていました。導出については、サンプルサイズが等しい場合のものしか記載がなかったので、こちらの書籍を参考に導出しました。

岩崎学（2010）.『カウントデータの統計解析』朝倉書店.
https://www.amazon.co.jp/dp/4254127944

岩崎（2010）によると、Fleissの「Statistical Methods for Rates and Proportions」に記載してあるようです。
https://www.amazon.co.jp/dp/0471526290

サンプルサイズの公式の導出

2つの二項確率 $\theta_1, \theta_2$ の正規近似に基づく差の検定のサンプルサイズを設計します。
第1群でのサンプルサイズを $n_1$ とし、第2群のサンプルサイズを $n_2=rn_1$ とします（ $0<r<\infty$ ）。確率変数 $X$ および $Y$ を互いに独立に二項分布に従うとするとき、下のように表せます。

X \sim B(n_1, \theta_1), \;　Y \sim B(n_1, \theta_2)

このとき、 $\hat{\theta}_1=X/n_1$ および $\hat{\theta}_2=Y/n_2$ とします。
それらの差 $\hat{\delta}=\hat{\theta}_1 - \hat{\theta}_2$ は、二項分布の正規近似により以下のように表せます。

\begin{aligned} \hat{\delta} \sim & N\left(\theta_1 - \theta_2, \frac{\theta_1(1-\theta_1 )}{n_1} + \frac{\theta_2(1-\theta_2)}{n_2}\right)\\ &= N\left(\theta_1 - \theta_2, \frac{n_2\theta_1(1-\theta_1)+n_1\theta_1(1-\theta_2)}{n_1n_2} \right)\\ &= N\left(\theta_1 - \theta_2, \frac{rn_1\theta_1(1-\theta_1)+n_1\theta_1(1-\theta_2)}{rn_1^2} \right)\\ &= N\left(\theta_1 - \theta_2, \frac{r\theta_1(1-\theta_1)+\theta_1(1-\theta_2)}{rn_1} \right) \end{aligned}

ただし、帰無仮説 $H_0:\theta_1=\theta_2(=\theta)$ の下では、

\begin{aligned} \hat{\delta} \sim & N\left(\theta_1 - \theta_2, \frac{r\theta_1(1-\theta_1)+\theta_1(1-\theta_2)}{rn_1} \right) \\ &= N\left(0, \frac{(1+r)\theta(1-\theta)}{rn_1} \right) \end{aligned}

となります。

対立仮説として、 $\theta_1 > \theta_2$ を想定します。必要とされる最小のサンプルサイズは、

\text{Pr}(\hat{\delta} > c_0 \mid H_0) = \alpha/2

となる $c_0$ に対して、

\text{Pr}(\hat{\delta} > c_0 \mid H_1) = 1-\beta

を満足する $n$ です。

$H_0$ の下での $c_0$

最初に $H_0$ の下での $c_0$ について考えます。
$H_0$ の下では、

Z = \frac{\hat{\delta}}{\sqrt{(1+r)\theta(1-\theta)/rn_1}} \sim N(0,1)

であるので、 $z(\alpha / 2)$ を $N(0,1)$ の上側 $100\alpha/2$ %とすると

\text{Pr}(Z>z(\alpha/2)|H_0)=\text{Pr}\left(\frac{\hat{\delta}}{\sqrt{(1+r)\theta(1-\theta)/rn_1}} > z(\alpha/2) \mid H_0\right)=\alpha/2

となるので、

c_0 = z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1}

となります。

$H_1$ の下での式変形

上で求めた $c_0$ の結果を使いながら、 $H_0$ の場合と同様に $\hat{\delta}$ を標準化すると

\begin{aligned} &\text{Pr} \left( \frac{\hat{\delta} - |\theta_1 - \theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} > \frac{c_0 - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} \mid H_1\right) \\ &= \text{Pr} \left( Z > \frac{z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1} - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} \mid H_1\right) = 1-\beta \end{aligned}

となるので、 $z(1-\beta)=-z(\beta)$ を $N(0,1)$ の上側 $100(1-\beta)$ %点として、

-z(\beta) = \frac{z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1} - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}}

を得ることが出来ます。ここで式中の $\theta$ を $\theta_1$ と $\theta_2$ 重み付け平均 $\bar{\theta}=(\theta_1+r\theta_2)/(1+r)$ として式変形すると

\begin{aligned} \sqrt{rn_1}|\theta_1 - \theta_2| = z(\alpha/2)\sqrt{(1+r)\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)} \\ \end{aligned}

となるので、これを $n_1$ について解くとサンプルサイズの公式

\begin{aligned} n_1 = \frac{\left\{z(\alpha/2)\sqrt{(1+r)\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)}\right\}^2}{r\left(\theta_1 - \theta_2\right)^2} \end{aligned}

を得ることができます。

両群のサンプルサイズが等しい場合

$r=1$ とすれば、両群のサンプルサイズが等しい場合のサンプルサイズの公式になります。このとき、重み付け平均は $\bar{\theta}=\{\theta_1+\theta_2\}/2$ です。

\begin{aligned} n_1 = n_2 = \frac{\left\{z(\alpha/2)\sqrt{2\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{\theta_1(1-\theta_1)+\theta_2(1-\theta_2)}\right\}^2}{\left(\theta_1 - \theta_2\right)^2} \end{aligned}

はじめに

参考文献

サンプルサイズの公式の導出

H_0の下でのc_0

H_1の下での式変形

両群のサンプルサイズが等しい場合

Discussion

$H_0$ の下での $c_0$

$H_1$ の下での式変形