📊

【統計検定準1級】母平均・母比率の差の区間推定

2024/11/04に公開

はじめに

この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。

【リンク紹介】
統計検定準1級のまとめ記事一覧
これまで書いたシリーズ記事一覧

学習書籍について

この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。


参考書籍について

統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。
※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。


区間推定

データを用いて未知母数\thetaの値の存在範囲を区間として推定する方法を区間推定(interval estimation)という。

正規母集団

母平均の差の信頼区間

X_1, X_2, \cdots, X_n母集団からの無作為標本とし、かつ互いに独立でそれぞれ同一の(母平均\mu_1母分散{\sigma_1}^2の)正規分布N(\mu_1, {\sigma_1}^2)に従うとする。
またY_1, Y_2, \cdots, Y_nを、X_1, X_2, \cdots, X_mとは別の母集団からの無作為標本とし、かつ互いに独立でそれぞれ同一の(母平均\mu_2、母分散{\sigma_2}^2)正規分布N(\mu_2, {\sigma_2}^2)に従うとする。
ただし、X_1, X_2, \cdots, X_mY_1, Y_2, \cdots, Y_nはそれぞれ互いに独立であり、今回は共通の分散\sigma^2 (= {\sigma_1}^2 = {\sigma_2}^2)を持つとする。

このとき、母平均の差\mu_1 - \mu_2の区間推定を行う。

まず\overline{X} - \overline{Y}の標本分散(合併標本分散(pooled sample variance))U^2を次のように定める。

U^2 = \cfrac{1}{m + n - 2} \left( \sum_{i = 1}^{m} (X_i - \overline{X})^2 + \sum_{j = 1}^{n} (Y_j - \overline{Y})^2 \right)

と定める。この式は次のように式変形できる。

\begin{alignat*}{2} U^2 &= \cfrac{1}{m + n - 2} \left( \sum_{i = 1}^{m} (X_i - \overline{X})^2 + \sum_{j = 1}^{n} (Y_j - \overline{Y})^2 \right) \\ &= \cfrac{1}{m + n - 2} \left( \cfrac{m - 1}{m - 1} \sum_{i = 1}^{m} (X_i - \overline{X})^2 + \cfrac{n - 1}{n - 1} \sum_{j = 1}^{n} (Y_j - \overline{Y})^2 \right) \\ &= \cfrac{1}{m + n - 2} \left( (m - 1) \cdot \cfrac{1}{m - 1} \sum_{i = 1}^{m} (X_i - \overline{X})^2 + (n - 1) \cdot \cfrac{1}{n - 1} \sum_{j = 1}^{n} (Y_j - \overline{Y})^2 \right) \hspace{5mm} \cdots ① \\ \end{alignat*}

ここで、
X_1, X_2, \cdots, X_mの不偏標本分散を{U_1}^2
Y_1, Y_2, \cdots, Y_nの不偏標本分散を{U_2}^2とすると、それぞれ

{U_1}^2 = \cfrac{1}{m - 1} \sum_{i = 1}^{m} (X_i - \overline{X})^2 \hspace{5mm} \cdots ②
{U_2}^2 = \cfrac{1}{n - 1} \sum_{j = 1}^{n} (Y_i - \overline{Y})^2 \hspace{5mm} \cdots ③

である。よって①に②、③を代入すると

\begin{alignat*}{2} U^2 &= \cfrac{1}{m + n - 2} \left( (m - 1) \cdot \cfrac{1}{m - 1} \sum_{i = 1}^{m} (X_i - \overline{X})^2 + (n - 1) \cdot \cfrac{1}{n - 1} \sum_{j = 1}^{n} (Y_j - \overline{Y})^2 \right) \\ &= \cfrac{(m - 1) \cdot {U_1}^2 + (n - 1) \cdot {U_2}^2}{m + n - 2} \end{alignat*}

と表せる。ここでこのU^2について次のことが成り立つ。

(m + n - 2) \cdot \cfrac{U^2}{\sigma^2} \text{は自由度} m + n - 2 \text{のカイ2乗分布に従う。} \cdots (Ⅰ)

[メモ]証明は後日記載

話は変わって標本平均の差\overline{X} - \overline{Y}について、正規分布の再生性より

X_1, X_2, \cdots, X_mが互いに独立で、それぞれN(\mu_1, {\sigma_1}^2)に従うので、

\overline{X} \text{は} N \left( \mu_1, \cfrac{{\sigma_1}^2}{m} \right) \text{に従う。}

同様に、Y_1, Y_2, \cdots, Y_nが互いに独立で、それぞれN( \mu_2, {\sigma_2}^2 )に従うので、

\overline{Y} \text{は} N \left( \mu_2, \cfrac{{\sigma_2}^2}{n} \right) \text{に従う。}

\overline{X}\overline{Y}は互いに独立であることから、正規分布の再生性より

\overline{X} - \overline{Y} \text{は} N \left( \mu_1 - \mu_2, \cfrac{{\sigma_1}^2}{m} + \cfrac{{\sigma_2}^2}{n} \right) \text{に従う。}

ここで、変数変換Z

\begin{alignat*}{2} Z &= \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)} {\sqrt{\cfrac{{\sigma_1}^2}{m} + \cfrac{{\sigma_2}^2}{n}}} \\ &= \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)} { \sqrt{ \left( \cfrac{1}{m} + \cfrac{1}{n} \right) \sigma^2 } } \hspace{5mm} (\because \sigma^2 = {\sigma_1}^2 = {\sigma_2}^2) \end{alignat*}

とおくと、

Z \text{は標準正規分布} N(0, 1) \text{に従う。} \cdots (Ⅱ)

以上、(Ⅰ)(Ⅱ)をまとめると
Z標準正規分布N(0, 1)に従い、\cfrac{(m + n - 2)U^2}{\sigma^2}は自由度m + n - 2カイ二乗分布に従う。
ゆえに統計量T

\begin{alignat*}{2} T &= \cfrac{Z} { \sqrt{ \cfrac{(m + n - 2) \cfrac{U^2}{\sigma^2}} {m + n - 2} } } \\ &= \cfrac{Z}{\sqrt{\cfrac{U^2}{\sigma^2}}} \end{alignat*}

とすると、Tは自由度m + n - 2t分布に従う。ゆえにt分布表から次の式が成り立つ。

P \left( -t_{0.025} (m + n - 2) \leqq T \leqq t_{0.025} (m + n - 2) \right) = 0.95

ただし、t_{\frac{\alpha}{2}} (m + n - 2)は自由度m + n - 2t分布の両側確率\alphaのパーセント点とする。すると、

\begin{alignat*}{2} (左辺)&= P \left( -t_{0.025} (m + n - 2) \leqq T \leqq t_{0.025} (m + n - 2) \right) \\ &= P \left( -t_{0.025} (m + n - 2) \leqq \cfrac{Z}{\sqrt{\cfrac{U^2}{\sigma^2}}} \leqq t_{0.025} (m + n - 2) \right) \\ &= P \left( -t_{0.025} (m + n - 2) \leqq \cfrac{ \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)} { \sqrt{ \left( \cfrac{1}{m} + \cfrac{1}{n} \right) \sigma^2 } } } {\sqrt{\cfrac{U^2}{\sigma^2}}} \leqq t_{0.025} (m + n - 2) \right) \\ &= P \left( -t_{0.025} (m + n - 2) \leqq \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)} { \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right)\sigma^2} \cdot \sqrt{\cfrac{U^2}{\sigma^2}} } \leqq t_{0.025} (m + n - 2) \right) \\ &= P \left( -t_{0.025} (m + n - 2) \leqq \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)} { \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} } \leqq t_{0.025} (m + n - 2) \right) \\ &= P \left( -t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \leqq (\overline{X} - \overline{Y}) - (\mu_1 - \mu_2) \leqq t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \right) \\ &= P \left( -t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \leqq (\mu_1 - \mu_2) - (\overline{X} - \overline{Y}) \leqq t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \right) \\ &= P \left( (\overline{X} - \overline{Y}) - t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \leqq \mu_1 - \mu_2 \leqq (\overline{X} - \overline{Y}) + t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \right) \\ \end{alignat*}

となる。以上より、母平均の差\mu_1 - \mu_2信頼係数0.95信頼区間は、

\left[ (\overline{X} - \overline{Y}) - t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2}, (\overline{X} - \overline{Y}) + t_{0.025} (m + n - 2) \sqrt{\left(\cfrac{1}{m} + \cfrac{1}{n}\right) \cdot U^2} \right]

となる。

ベルヌーイ母集団

母比率の差の信頼区間

X_1, X_2, \cdots, X_mを、母集団からの無作為標本とし、それぞれ互いに独立で、同一の二項分布Bin (1, p_1)に従う確率変数であるとする。このとき、期待値分散はそれぞれp_1, p_1(1 - p_1)である。
また、標本比率\hat{p_1}を次のように定める。

\hat{p_1} = \cfrac{X_1 + X_2 + \cdots + X_m}{m}

すると、mが十分に大きいとき、中心極限定理より\hat{p_1}正規分布N \left(p_1, \cfrac{p_1 (1 - p_1)}{m} \right)に従う。
また\hat{p_1}p_1の一致推定量であるから

\hat{p_1} \text{は正規分布} N \left( p_1, \cfrac{\hat{p_1} (1 - \hat{p_1})}{m} \right) \text{に従う。}

同様にして、
Y_1, Y_2, \cdots, Y_nを、母集団からの無作為標本とし、それぞれ互いに独立で、同一の二項分布Bin (1, p_2)に従う確率変数であるとする。このとき、期待値と分散はそれぞれp_2, p_2(1 - p_2)である。
また、標本比率\hat{p_2}を次のように定める。

\hat{p_2} = \cfrac{Y_1 + Y_2 + \cdots + Y_n}{n}

すると、nが十分に大きいとき、中心極限定理より\hat{p_2}は正規分布N \left(p_2, \cfrac{p_2 (1 - p_2)}{n} \right)に従う。
また\hat{p_2}p_2の一致推定量であるから、

\hat{p_2} \text{は正規分布} N \left( p_2, \cfrac{\hat{p_2} (1 - \hat{p_2})}{n} \right) \text{に従う。}

このとき、母比率の差p_1 - p_2の区間推定を行う。

正規分布の再生性より、p_1 - p_2

N \left( p_1 - p_2, \cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n} \right)

に従う。ここで、変数変換Z

Z = \cfrac{(\hat{p_1} - \hat{p_2}) - (p_1 - p_2)} {\sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}}}

とおくと、Zは標準正規分布N(0, 1)に従う。すると標準正規分布表から次の式が成り立つ。

P(- 1.96 \leqq Z \leqq 1.96) = 0.95

よって、

\begin{alignat*}{2} (左辺)&= P(- 1.96 \leqq Z \leqq 1.96) \\ &= P \left( - 1.96 \leqq \cfrac{(\hat{p_1} - \hat{p_2}) - (p_1 - p_2)} { \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} }\leqq 1.96 \right) \\ &= P \left( - 1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \leqq (\hat{p_1} - \hat{p_2}) - (p_1 - p_2) \leqq 1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \right) \\ &= P \left( - 1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \leqq (p_1 - p_2) - (\hat{p_1} - \hat{p_2}) \leqq 1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \right) \\ &= P \left( (\hat{p_1} - \hat{p_2}) - 1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \leqq (p_1 - p_2) \leqq (\hat{p_1} - \hat{p_2}) +1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \right) \\ \end{alignat*}

となる。以上より、母比率の差p_1 - p_2の信頼係数0.95の信頼区間は、

\left[ (\hat{p_1} - \hat{p_2}) - 1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}}, (\hat{p_1} - \hat{p_2}) +1.96 \sqrt{\cfrac{\hat{p_1} (1 - \hat{p_1})}{m} + \cfrac{\hat{p_2} (1 - \hat{p_2})}{n}} \right]

となる。

参考資料

\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。

Discussion