はじめに
この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。
【リンク紹介】
・統計検定準1級のまとめ記事一覧
・これまで書いたシリーズ記事一覧
学習書籍について
この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。
参考書籍について
統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。
※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。
区間推定
データを用いて未知母数\thetaの値の存在範囲を区間として推定する方法を区間推定(interval estimation)という。
母平均の区間推定
X_1, X_2, \cdots, X_nを、母集団からの無作為標本とする。
今、X_1, X_2, \cdots, X_nは互いに独立で、それぞれ同一の(母平均\mu、母分散\sigma^2の)正規分布N(\mu, \sigma^2)に従うとする。
このとき、母平均\muの区間推定を行う。
[1] 母分散が既知のとき
(※母分散が既知であるため、推定に必要がないためそのまま\sigma^2を用いていく)
\overline{X} = \cfrac{X_1 + X_2 + \cdots + X_n}{n}
とおくと、正規分布の再生性より\overline{X}は正規分布N(\mu, \cfrac{\sigma^2}{n})に従う。ここで、標準化を行う。つまり
Z = \cfrac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}
\hspace{5mm} \cdots ①
とおけば、Zは標準正規分布N(0, 1)に従う。さて、標準正規分布表から次の式が成り立つ。
\begin{alignat*}{2}
Q(1.96) &= 0.025 \\
1 - \Phi (1.96) &= 0.025 \\
1 - P(Z \leqq 1.96) &= 0.025 \\
P(Z \leqq 1.96) &= 1 - 0.025 \\
P(Z \leqq 1.96) &= 0.975
\end{alignat*}
また、標準正規分布の対称性から
P(- 1.96 \leqq Z) = 0.025
であることから、次の式が成り立つ。
P(- 1.96 \leqq Z \leqq 1.96) = 0.95
ここで、①より
\begin{alignat*}{2}
P \left(
- 1.96 \leqq \cfrac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \leqq 1.96
\right) &= 0.95 \hspace{30mm} \\
P \left(
- 1.96 \leqq \cfrac{\sqrt{n} (\overline{X} - \mu)}{\sigma} \leqq 1.96
\right) &= 0.95 \\
P \left(
- 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq
\overline{X} - \mu \leqq
1.96 \cfrac{\sigma}{\sqrt{n}}
\right) &= 0.95 \\
P \left(
\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq
\mu \leqq
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
\right) &= 0.95 \hspace{5mm} \cdots ② \\
\end{alignat*}
となる。以上より、母平均\muの存在範囲は
\left[
\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
\right]
となる。
信頼区間・信頼係数の定義
②において、
母平均\muの存在範囲
\left[
\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
\right]
を、信頼区間(confidence interval)という。
特に、\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}は信頼限界という。
また、0.95を信頼係数(confidence coefficient)もしくは信頼率といい、改めて②の式は、
「母平均 \mu の信頼係数0.95の信頼区間は \overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq \mu \leqq \overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}} である」
ことを表している。
[2] 母分散が未知のとき
推定値として不偏標本分散U^2を用いる。つまり
U^2 = \cfrac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \overline{X})^2
を、\sigma^2と置き換えることとする。
つまり、X_1, X_2, \cdots, X_nは正規分布N(\mu, U^2)に従うとする。ここで、次の統計量
\cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
は、標準正規分布N(0, 1)ではなく、自由度n - 1のt分布に従う。実際に、
\begin{alignat*}{2}
\cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
&= \cfrac{(\overline{X} - \mu) \cdot \cfrac{1}{\sqrt{\frac{\sigma^2}{n}}}}
{\cfrac{U}{\sqrt{n}} \cdot \cfrac{1}{\sqrt{\frac{\sigma^2}{n}}}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
{\sqrt{ \ \ \cfrac{\frac{ \ \ U^2 \ \ }{n} \ \ }
{\frac{ \ \ \sigma^2 \ \ }{n}}
}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
{\sqrt{ \ \ \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
{\sqrt{ 1 \cdot \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
{\sqrt{ \cfrac{n - 1}{n - 1} \cdot \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
{\sqrt{ \cfrac{1}{n - 1} \cdot
\left(
(n - 1) \cdot \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }
\right)
}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
{\sqrt{ \cfrac{\frac{ \ \ (n - 1) U^2 \ \ }{\sigma^2}}{n - 1} }} \\
\end{alignat*}
(※この式変形、えげつなくない?(・ω・;)この計算、どの入門書にも書かれてないのだが…)
とすると、分子の
\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}
は、N(0, 1)に従い、分母の
\cfrac{\ \ (n - 1) U^2 \ \ }{\sigma^2}
は、自由度n - 1のカイ2乗分布\chi^2 (n - 1)に従う。
さて、改めて先ほどの統計量を
T = \cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
とすると、t分布表から次の式が成り立つ。
P\left( - t_{0.025} (n - 1) \leqq T \leqq t_{0.025} (n - 1) \right) = 0.95
ただし、自由度\nuのt分布の上側確率\alphaに対するtの値をt_{\alpha} (\nu)とする。
すると、
\begin{alignat*}{2}
P\left( - t_{0.025} (n - 1) \leqq T \leqq t_{0.025} (n - 1) \right) &= 0.95 \\
P\left( - t_{0.025} (n - 1) \leqq
\cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
\leqq t_{0.025} (n - 1) \right) &= 0.95 \\
P \left(
\overline{X} - t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}} \leqq
\mu \leqq
\overline{X} + t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}} \right) &= 0.95 \hspace{20mm} \\
\end{alignat*}
となる。以上より、母平均\muの信頼係数0.95の信頼区間は
\left[
\overline{X} - t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}}, \
\overline{X} + t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}}
\right]
となる。
参考資料
\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。
Discussion