Zenn
💡

2群の比率の差の検定のサンプルサイズ設計(両群のサンプルサイズが異なる場合)

に公開

はじめに

A/Bテストなどで2群の比率の差を検定する場合、サンプルサイズを設計します。多くの場合は、サンプルサイズは両群で同じですが、稀に両群で異なるサンプルサイズでしか取得できないケースもあると思います。両群のサンプルサイズが異なる場合のサンプルサイズの公式の導出は、ネットの上の日本語のページでは見つけられなかったので、まとめておきます。

参考文献

以下の書籍に両群のサンプルサイズが異なる場合のサンプルサイズの公式が紹介されていました。導出については、サンプルサイズが等しい場合のものしか記載がなかったので、こちらの書籍を参考に導出しました。

岩崎学(2010).『カウントデータの統計解析』朝倉書店.
https://www.amazon.co.jp/dp/4254127944

岩崎(2010)によると、Fleissの「Statistical Methods for Rates and Proportions」に記載してあるようです。
https://www.amazon.co.jp/dp/0471526290

サンプルサイズの公式の導出

2つの二項確率θ1,θ2\theta_1, \theta_2の正規近似に基づく差の検定のサンプルサイズを設計します。
第1群でのサンプルサイズをn1n_1とし、第2群のサンプルサイズをn2=rn1n_2=rn_1とします(0<r<0<r<\infty)。確率変数XXおよびYYを互いに独立に二項分布に従うとするとき、下のように表せます。

XB(n1,θ1),   YB(n1,θ2) X \sim B(n_1, \theta_1), \; Y \sim B(n_1, \theta_2)

このとき、θ^1=X/n1\hat{\theta}_1=X/n_1およびθ^2=Y/n2\hat{\theta}_2=Y/n_2とします。
それらの差δ^=θ^1θ^2\hat{\delta}=\hat{\theta}_1 - \hat{\theta}_2は、二項分布の正規近似により以下のように表せます。

δ^N(θ1θ2,θ1(1θ1)n1+θ2(1θ2)n2)=N(θ1θ2,n2θ1(1θ1)+n1θ1(1θ2)n1n2)=N(θ1θ2,rn1θ1(1θ1)+n1θ1(1θ2)rn12)=N(θ1θ2,rθ1(1θ1)+θ1(1θ2)rn1) \begin{aligned} \hat{\delta} \sim & N\left(\theta_1 - \theta_2, \frac{\theta_1(1-\theta_1 )}{n_1} + \frac{\theta_2(1-\theta_2)}{n_2}\right)\\ &= N\left(\theta_1 - \theta_2, \frac{n_2\theta_1(1-\theta_1)+n_1\theta_1(1-\theta_2)}{n_1n_2} \right)\\ &= N\left(\theta_1 - \theta_2, \frac{rn_1\theta_1(1-\theta_1)+n_1\theta_1(1-\theta_2)}{rn_1^2} \right)\\ &= N\left(\theta_1 - \theta_2, \frac{r\theta_1(1-\theta_1)+\theta_1(1-\theta_2)}{rn_1} \right) \end{aligned}

ただし、帰無仮説H0:θ1=θ2(=θ)H_0:\theta_1=\theta_2(=\theta)の下では、

δ^N(θ1θ2,rθ1(1θ1)+θ1(1θ2)rn1)=N(0,(1+r)θ(1θ)rn1) \begin{aligned} \hat{\delta} \sim & N\left(\theta_1 - \theta_2, \frac{r\theta_1(1-\theta_1)+\theta_1(1-\theta_2)}{rn_1} \right) \\ &= N\left(0, \frac{(1+r)\theta(1-\theta)}{rn_1} \right) \end{aligned}

となります。

対立仮説として、θ1>θ2\theta_1 > \theta_2を想定します。必要とされる最小のサンプルサイズは、

Pr(δ^>c0H0)=α/2 \text{Pr}(\hat{\delta} > c_0 \mid H_0) = \alpha/2

となるc0c_0に対して、

Pr(δ^>c0H1)=1β \text{Pr}(\hat{\delta} > c_0 \mid H_1) = 1-\beta

を満足するnnです。

H0H_0の下でのc0c_0

最初にH0H_0の下でのc0c_0について考えます。
H0H_0の下では、

Z=δ^(1+r)θ(1θ)/rn1N(0,1) Z = \frac{\hat{\delta}}{\sqrt{(1+r)\theta(1-\theta)/rn_1}} \sim N(0,1)

であるので、z(α/2)z(\alpha / 2)N(0,1)N(0,1)の上側100α/2100\alpha/2%とすると

Pr(Z>z(α/2)H0)=Pr(δ^(1+r)θ(1θ)/rn1>z(α/2)H0)=α/2 \text{Pr}(Z>z(\alpha/2)|H_0)=\text{Pr}\left(\frac{\hat{\delta}}{\sqrt{(1+r)\theta(1-\theta)/rn_1}} > z(\alpha/2) \mid H_0\right)=\alpha/2

となるので、

c0=z(α/2)(1+r)θ(1θ)/rn1 c_0 = z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1}

となります。

H1H_1の下での式変形

上で求めたc0c_0の結果を使いながら、H0H_0の場合と同様にδ^\hat{\delta}を標準化すると

Pr(δ^θ1θ2{rθ1(1θ1)+θ2(1θ2)}/rn1>c0θ1θ2{rθ1(1θ1)+θ2(1θ2)}/rn1H1)=Pr(Z>z(α/2)(1+r)θ(1θ)/rn1θ1θ2{rθ1(1θ1)+θ2(1θ2)}/rn1H1)=1β \begin{aligned} &\text{Pr} \left( \frac{\hat{\delta} - |\theta_1 - \theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} > \frac{c_0 - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} \mid H_1\right) \\ &= \text{Pr} \left( Z > \frac{z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1} - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}} \mid H_1\right) = 1-\beta \end{aligned}

となるので、z(1β)=z(β)z(1-\beta)=-z(\beta)N(0,1)N(0,1)の上側100(1β)100(1-\beta)%点として、

z(β)=z(α/2)(1+r)θ(1θ)/rn1θ1θ2{rθ1(1θ1)+θ2(1θ2)}/rn1 -z(\beta) = \frac{z(\alpha/2)\sqrt{(1+r)\theta(1-\theta)/rn_1} - |\theta_1-\theta_2|}{\sqrt{\{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)\}/rn_1}}

を得ることが出来ます。ここで式中のθ\thetaθ1\theta_1θ2\theta_2重み付け平均θˉ=(θ1+rθ2)/(1+r)\bar{\theta}=(\theta_1+r\theta_2)/(1+r)として式変形すると

rn1θ1θ2=z(α/2)(1+r)θˉ(1θˉ)+z(β)rθ1(1θ1)+θ2(1θ2) \begin{aligned} \sqrt{rn_1}|\theta_1 - \theta_2| = z(\alpha/2)\sqrt{(1+r)\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)} \\ \end{aligned}

となるので、これをn1n_1について解くとサンプルサイズの公式

n1={z(α/2)(1+r)θˉ(1θˉ)+z(β)rθ1(1θ1)+θ2(1θ2)}2r(θ1θ2)2 \begin{aligned} n_1 = \frac{\left\{z(\alpha/2)\sqrt{(1+r)\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{r\theta_1(1-\theta_1)+\theta_2(1-\theta_2)}\right\}^2}{r\left(\theta_1 - \theta_2\right)^2} \end{aligned}

を得ることができます。

両群のサンプルサイズが等しい場合

r=1r=1とすれば、両群のサンプルサイズが等しい場合のサンプルサイズの公式になります。このとき、重み付け平均はθˉ={θ1+θ2}/2\bar{\theta}=\{\theta_1+\theta_2\}/2です。

n1=n2={z(α/2)2θˉ(1θˉ)+z(β)θ1(1θ1)+θ2(1θ2)}2(θ1θ2)2 \begin{aligned} n_1 = n_2 = \frac{\left\{z(\alpha/2)\sqrt{2\bar{\theta}(1-\bar{\theta})}+z(\beta)\sqrt{\theta_1(1-\theta_1)+\theta_2(1-\theta_2)}\right\}^2}{\left(\theta_1 - \theta_2\right)^2} \end{aligned}

Discussion

ログインするとコメントできます