はじめに
A/Bテストなどで2群の比率の差を検定する場合、サンプルサイズを設計します。多くの場合は、サンプルサイズは両群で同じですが、稀に両群で異なるサンプルサイズでしか取得できないケースもあると思います。両群のサンプルサイズが異なる場合のサンプルサイズの公式の導出は、ネットの上の日本語のページでは見つけられなかったので、まとめておきます。
参考文献
以下の書籍に両群のサンプルサイズが異なる場合のサンプルサイズの公式が紹介されていました。導出については、サンプルサイズが等しい場合のものしか記載がなかったので、こちらの書籍を参考に導出しました。
岩崎学(2010).『カウントデータの統計解析』朝倉書店.
https://www.amazon.co.jp/dp/4254127944
岩崎(2010)によると、Fleissの「Statistical Methods for Rates and Proportions」に記載してあるようです。
https://www.amazon.co.jp/dp/0471526290
サンプルサイズの公式の導出
2つの二項確率\theta_1, \theta_2の正規近似に基づく差の検定のサンプルサイズを設計します。
第1群でのサンプルサイズをn_1とし、第2群のサンプルサイズをn_2=rn_1とします(0<r<\infty)。確率変数XおよびYを互いに独立に二項分布に従うとするとき、下のように表せます。
X \sim B(n_1, \theta_1), \; Y \sim B(n_1, \theta_2)
このとき、\hat{\theta}_1=X/n_1および\hat{\theta}_2=Y/n_2とします。
それらの差\hat{\delta}=\hat{\theta}_1 - \hat{\theta}_2は、二項分布の正規近似により以下のように表せます。
\begin{aligned}
\hat{\delta} \sim & N\left(\theta_1 - \theta_2, \frac{\theta_1(1-\theta_1 )}{n_1} + \frac{\theta_2(1-\theta_2)}{n_2}\right)\\
&= N\left(\theta_1 - \theta_2, \frac{n_2\theta_1(1-\theta_1)+n_1\theta_1(1-\theta_2)}{n_1n_2} \right)\\
&= N\left(\theta_1 - \theta_2, \frac{rn_1\theta_1(1-\theta_1)+n_1\theta_1(1-\theta_2)}{rn_1^2} \right)\\
&= N\left(\theta_1 - \theta_2, \frac{r\theta_1(1-\theta_1)+\theta_1(1-\theta_2)}{rn_1} \right)
\end{aligned}
ただし、帰無仮説H_0:\theta_1=\theta_2(=\theta)の下では、
\begin{aligned}
\hat{\delta} \sim & N\left(\theta_1 - \theta_2, \frac{r\theta_1(1-\theta_1)+\theta_1(1-\theta_2)}{rn_1} \right) \\
&= N\left(0, \frac{(1+r)\theta(1-\theta)}{rn_1} \right)
\end{aligned}
となります。
対立仮説として、\theta_1 > \theta_2を想定します。必要とされる最小のサンプルサイズは、
\text{Pr}(\hat{\delta} > c_0 \mid H_0) = \alpha/2
となるc_0に対して、
\text{Pr}(\hat{\delta} > c_0 \mid H_1) = 1-\beta
を満足するnです。
H_0の下でのc_0
最初にH_0の下でのc_0について考えます。
H_0の下では、
Z = \frac{\hat{\delta}}{\sqrt{(1+r)\theta(1-\theta)/rn_1}} \sim N(0,1)
であるので、z(\alpha / 2)をN(0,1)の上側100\alpha/2%とすると
\text{Pr}(Z>z(\alpha/2)|H_0)=\text{Pr}\left(\frac{\hat{\delta}}{\sqrt{(1+r)\theta(1-\theta)/rn_1}} > z(\alpha/2) \mid H_0\right)=\alpha/2
となるので、
c_0 = z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1}
となります。
H_1の下での式変形
上で求めたc_0の結果を使いながら、H_0の場合と同様に\hat{\delta}を標準化すると
\begin{aligned}
&\text{Pr} \left( \frac{\hat{\delta} - |\theta_1 - \theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} > \frac{c_0 - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} \mid H_1\right) \\
&= \text{Pr} \left( Z > \frac{z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1} - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} \mid H_1\right) = 1-\beta
\end{aligned}
となるので、z(1-\beta)=-z(\beta)をN(0,1)の上側100(1-\beta)%点として、
-z(\beta) = \frac{z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1} - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}}
を得ることが出来ます。ここで式中の\thetaを\theta_1と\theta_2重み付け平均\bar{\theta}=(\theta_1+r\theta_2)/(1+r)として式変形すると
\begin{aligned}
\sqrt{rn_1}|\theta_1 - \theta_2| = z(\alpha/2)\sqrt{(1+r)\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)} \\
\end{aligned}
となるので、これをn_1について解くとサンプルサイズの公式
\begin{aligned}
n_1 = \frac{\left\{z(\alpha/2)\sqrt{(1+r)\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)}\right\}^2}{r\left(\theta_1 - \theta_2\right)^2}
\end{aligned}
を得ることができます。
両群のサンプルサイズが等しい場合
r=1とすれば、両群のサンプルサイズが等しい場合のサンプルサイズの公式になります。このとき、重み付け平均は\bar{\theta}=\{\theta_1+\theta_2\}/2です。
\begin{aligned}
n_1 = n_2 = \frac{\left\{z(\alpha/2)\sqrt{2\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{\theta_1(1-\theta_1)+\theta_2(1-\theta_2)}\right\}^2}{\left(\theta_1 - \theta_2\right)^2}
\end{aligned}
Discussion