🟠

2標本問題(平均の差の検定・等分散の検定)

2024/02/02に公開

はじめに

今回は2標本問題(tow-sample problem), すなわち2組のデータの分布の比較を考える。
平均に関しては平均の差の検定
分散に関しては等分散性の検定
どちらも考え方は母平均、母分散の検定と同じです。

母平均の検定についてはこちら。
https://zenn.dev/totopironote/articles/bbeb7ec577f235

母分散の検定についてはこちら。
https://zenn.dev/totopironote/articles/5bffb646ebd6b8

設定

平均\mu_i , 分散\sigma_i^2 を持つ正規分布N(\mu_i,\sigma_i^2) (i=1,2)からデータが取られるとする。

データ数をそれぞれn_1,n_2とし、データをX_{11},\dots,X_{1n_1} ; X_{21},\dots,X_{2n_2}とし全てが互いに独立とする。

平均の差の検定

H:\mu_1 =\mu_2 , \ K:\mu_1 ≠\mu_2

帰無仮説Hのもとで\bar X_1 = n_1^{-1}\sum_{i=1}^{n_1}X_{1i},\ \bar X_2 = n_2^{-1}\sum_{i=1}^{n_2}X_{2i}

E(\bar X_1) = \mu_1 ,\ Var(\bar X_1) =\sigma_1^2/n_1 ,\ E(\bar X_2)=\mu_2 ,\ Var(\bar X_2) =\sigma_2^2/n_2

である。\bar X =\bar X_1 - \bar X_2 とすれば母平均の検定と同じである。

E(\bar X)= E(\bar X_1 - \bar X_2)= \mu_1-\mu_2 = 0

Var(\bar X) = \sigma_1^2/n_1 + \sigma_2^2/n_2

\sigma^2が未知の場合は不偏分散で推定すれば良い。

U = \frac{\bar X- E(\bar X)}{Var(\bar X)}

Uが何の分布に従うかを以下の場合で考える。

Uの分布がわかればあとは母平均の検定とやり方は同じなので省略します。

1. \sigma_1^2, \sigma_2^2 が既知

\begin{equation} U = \frac{\bar X_1 - \bar X_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0,1) \end{equation}

2. \sigma_1^2 = \sigma_2^2=\sigma^2\sigma^2が未知

分散\sigma_1^2,\sigma_2^2をそれぞれ不偏分散S_1^2,S_2^2で推定する

S_1^2 = \frac{1}{n_1-1}\sum_{i-1}^{n_1}(X_{1i}-\bar X_1)^2,\ S_2^2 = \frac{1}{n_2-1}\sum_{i-1}^{n_2}(X_{2i}-\bar X_2)^2

(n_1-1)S_1^2/\sigma^2,\ (n_2-1)S_2^2/\sigma^2は互いに独立にそれぞれ\chi_{n_1-1}^2 ,\chi_{n_2-1}^2に従う。よって

\frac{(n_1-1)S_1^2}{\sigma^2}+\frac{(n_2-1)S_2^2}{\sigma^2} \sim \chi_{n_1+n_2-2}^2

これより\sigma^2の不偏推定量は

\frac{ (n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}

となる。したがって

\begin{equation} U = \frac{\bar X_1 - \bar X_2}{\sqrt{(\frac{1}{n_1} + \frac{1}{n_2})\frac{ (n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} }} \sim t_{n_1+n_2-2} \end{equation}

\sigma_1^2,\sigma_2^2に条件を仮定しない場合

ベーレンスフィッシャー問題と呼ばれる。

等分散の検定

\mu_i(i=1,2)は未知とする。

H:\sigma_1^2 =\sigma_2^2 , \ K:\sigma_1^2 ≠ \sigma_2^2

平均の差の検定と同様に、S_1^2,S_2^2を用いる。

F = \frac{S_1^2}{S_2^2}=\frac{S_1^2/\sigma^2}{S_2^2/\sigma^2}\sim F_{n_1-1,n_2-1}

F_{n_1-1,n_2-1}の上側100\alpha%点:F_\alpha(n_1-1,n_2-1)

Fに基づく棄却域は

C = (0,F_{1-\alpha/2}(n_1-1,n_2-1)) \cup (F_{\alpha/2}(n_1-1,n_2-1),\infty)

まとめ

いかがだったでしょうか。母平均の検定と母分散の検定が理解できていれば、簡単だったのではないでしょうか。やっぱり数学は積み重ねですね。頑張っていきましょう。

参考文献

  • 赤平昌文 「統計解析入門」

Discussion