はじめに
A/Bテストなどで2群の比率の差を検定する場合、サンプルサイズを設計します。多くの場合は、サンプルサイズは両群で同じですが、稀に両群で異なるサンプルサイズでしか取得できないケースもあると思います。両群のサンプルサイズが異なる場合のサンプルサイズの公式の導出は、ネットの上の日本語のページでは見つけられなかったので、まとめておきます。
参考文献
以下の書籍に両群のサンプルサイズが異なる場合のサンプルサイズの公式が紹介されていました。導出については、サンプルサイズが等しい場合のものしか記載がなかったので、こちらの書籍を参考に導出しました。
岩崎学(2010).『カウントデータの統計解析』朝倉書店.
https://www.amazon.co.jp/dp/4254127944
岩崎(2010)によると、Fleissの「Statistical Methods for Rates and Proportions」に記載してあるようです。
https://www.amazon.co.jp/dp/0471526290
サンプルサイズの公式の導出
2つの二項確率θ1,θ2の正規近似に基づく差の検定のサンプルサイズを設計します。
第1群でのサンプルサイズをn1とし、第2群のサンプルサイズをn2=rn1とします(0<r<∞)。確率変数XおよびYを互いに独立に二項分布に従うとするとき、下のように表せます。
X∼B(n1,θ1), Y∼B(n1,θ2)
このとき、θ^1=X/n1およびθ^2=Y/n2とします。
それらの差δ^=θ^1−θ^2は、二項分布の正規近似により以下のように表せます。
δ^∼N(θ1−θ2,n1θ1(1−θ1)+n2θ2(1−θ2))=N(θ1−θ2,n1n2n2θ1(1−θ1)+n1θ1(1−θ2))=N(θ1−θ2,rn12rn1θ1(1−θ1)+n1θ1(1−θ2))=N(θ1−θ2,rn1rθ1(1−θ1)+θ1(1−θ2))
ただし、帰無仮説H0:θ1=θ2(=θ)の下では、
δ^∼N(θ1−θ2,rn1rθ1(1−θ1)+θ1(1−θ2))=N(0,rn1(1+r)θ(1−θ))
となります。
対立仮説として、θ1>θ2を想定します。必要とされる最小のサンプルサイズは、
Pr(δ^>c0∣H0)=α/2
となるc0に対して、
Pr(δ^>c0∣H1)=1−β
を満足するnです。
H0の下でのc0
最初にH0の下でのc0について考えます。
H0の下では、
Z=(1+r)θ(1−θ)/rn1δ^∼N(0,1)
であるので、z(α/2)をN(0,1)の上側100α/2%とすると
Pr(Z>z(α/2)∣H0)=Pr((1+r)θ(1−θ)/rn1δ^>z(α/2)∣H0)=α/2
となるので、
c0=z(α/2)(1+r)θ(1−θ)/rn1
となります。
H1の下での式変形
上で求めたc0の結果を使いながら、H0の場合と同様にδ^を標準化すると
Pr({rθ1(1−θ1)+θ2(1−θ2)}/rn1δ^−∣θ1−θ2∣>{rθ1(1−θ1)+θ2(1−θ2)}/rn1c0−∣θ1−θ2∣∣H1)=Pr(Z>{rθ1(1−θ1)+θ2(1−θ2)}/rn1z(α/2)(1+r)θ(1−θ)/rn1−∣θ1−θ2∣∣H1)=1−β
となるので、z(1−β)=−z(β)をN(0,1)の上側100(1−β)%点として、
−z(β)={rθ1(1−θ1)+θ2(1−θ2)}/rn1z(α/2)(1+r)θ(1−θ)/rn1−∣θ1−θ2∣
を得ることが出来ます。ここで式中のθをθ1とθ2重み付け平均θˉ=(θ1+rθ2)/(1+r)として式変形すると
rn1∣θ1−θ2∣=z(α/2)(1+r)θˉ(1−θˉ)+z(β)rθ1(1−θ1)+θ2(1−θ2)
となるので、これをn1について解くとサンプルサイズの公式
n1=r(θ1−θ2)2{z(α/2)(1+r)θˉ(1−θˉ)+z(β)rθ1(1−θ1)+θ2(1−θ2)}2
を得ることができます。
両群のサンプルサイズが等しい場合
r=1とすれば、両群のサンプルサイズが等しい場合のサンプルサイズの公式になります。このとき、重み付け平均はθˉ={θ1+θ2}/2です。
n1=n2=(θ1−θ2)2{z(α/2)2θˉ(1−θˉ)+z(β)θ1(1−θ1)+θ2(1−θ2)}2
Discussion