はじめに
この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。
【リンク紹介】
・統計検定準1級のまとめ記事一覧
・これまで書いたシリーズ記事一覧
学習書籍について
この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。

参考書籍について
統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。

母平均の差の検定
[1] 母分散が既知のとき
例題
(「統計学入門」より)
ある学年で知能指数を測定し, 男女別に集計したところ次の結果が得られた. 男女差ありといえるか. ただし, 知能指数の分布はN(100, 15^2)といわれている.
|
平均 |
標準偏差 |
人数 |
男子生徒 |
103 |
17 |
40 |
女子生徒 |
101 |
12 |
35 |
例題の解答
「知能指数に男女差はない」という仮説を帰無仮説H_0とし、
「知能指数に男女差がある」という仮説を対立仮説H_1
として、統計的仮説検定を行う。ただし有意水準は\alpha = 0.05であると仮定する。
X_1, X_2, \cdots, X_{40}を、正規母集団N(\mu_1, {\sigma_1}^2)から取り出した標本とする。X_1, X_2, \cdots, X_{40}は互いに独立でN(\mu_1, {\sigma_1}^2)に従う。また、
Y_1, Y_2, \cdots, Y_{35}を、正規母集団N(\mu_2, {\sigma_2}^2)から取り出した標本とする。Y_1, Y_2, \cdots, Y_{35}は互いに独立でN(\mu_2, {\sigma_2}^2)に従う。
ただし、\mu_1, \mu_2は母平均、{\sigma_1}^2, {\sigma_2}^2は母分散とする。
今、帰無仮説H_0と対立仮説H_1をそれぞれ次のように仮定する。
H_0 \ : \ \mu_1 = \mu_2 \\
H_1 \ : \ \mu_1 \neq \mu_2
よって帰無仮説H_0を仮定して、仮定が棄却されるかを調べる。つまり
\mu_1 = \mu_2 \\
{\sigma_1}^2 = {\sigma_2}^2 = 15^2
とする。ここで、
\begin{alignat*}{2}
\overline{X} &= \cfrac{X_1 + X_2 + \cdots + X_{40}}{40} \\
\end{alignat*}
\begin{alignat*}{2}
\overline{Y} &= \cfrac{Y_1 + Y_2 + \cdots + Y_{35}}{35} \\
\end{alignat*}
とおくと、正規分布の再生性より\overline{X}は正規分布N(\mu_1, \frac{15^2}{40})に、\overline{Y}は正規分布N(\mu_2, \frac{15^2}{35})にそれぞれ従う。
さらに正規分布の再生性より、\overline{X} - \overline{Y}は正規分布N(\mu_1 - \mu_2, \frac{15^2}{40} + \frac{15^2}{35})に従う。
ここで、確率変数Zを
Z =
\cfrac
{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}
{\sqrt{\cfrac{15^2}{40} + \cfrac{15^2}{35}}}
とおけば、Zは標準正規分布N(0, 1)に従う。よって有意水準が\alpha = 0.05であることと標準正規分布表を用いて、棄却域Rを
\begin{alignat*}{2}
R &= \{ z | \left| z \right| > 1.96 \} \\
&= \{ z | z < -1.96, 1.96 < z \}
\end{alignat*}
と定める。ここで、
\overline{X} = 103 \\
\overline{Y} = 101
であり、かつ
\mu_1 = \mu_2 \Leftrightarrow \mu_1 - \mu_2 = 0
であることからZの実現値zは、
\begin{alignat*}{2}
z &= \cfrac{(103 - 101) - 0}{\sqrt{\cfrac{15^2}{40} + \cfrac{15^2}{35}}} \\
&= \cfrac{2}{15 \sqrt{\cfrac{35 + 40}{40 \times 35}}} \\
&= \cfrac{2}{15 \sqrt{\cfrac{3}{8 \times 7}}} \\
&= \cfrac{2}{\cfrac{15}{2} \sqrt{\cfrac{3}{14}}} \\
&= \cfrac{4}{15 \sqrt{\cfrac{3}{14}}} \\
&\fallingdotseq \cfrac{4}{15 \times 0.463} \\
&= \cfrac{4}{6.945} \\
&\fallingdotseq 0.576 \notin R
\end{alignat*}
であるので、帰無仮説H_0は棄却されない。つまり知能指数に男女差はない。
[2] 母分散が未知のとき
(1) 母分散が等しいとき
例題
(「統計学入門」より)
ある動物を2群に分け, 2種類のエサA, Bを与えて成長の差を調べた. 体重(g)について下のデータを得た. Aの方がよいといえるか.
|
平均 |
分散 |
サンプル数 |
A |
168,1 |
8.8 |
10 |
B |
164.3 |
10.1 |
8 |
例題の解答
「A, Bのエサの効果は同じである」という仮説を帰無仮説H_0とし、
「A, Bのエサの効果は異なる」という仮説を対立仮説H_1
として、統計的仮説検定を行う。ただし有意水準は\alpha = 0.05であると仮定する。
X_1, X_2, \cdots, X_{n_1}を、正規母集団N(\mu_1, {\sigma_1}^2)から取り出した標本とする。X_1, X_2, \cdots, X_{n_2}は互いに独立でN(\mu_1, {\sigma_1}^2)に従う。また、
Y_1, Y_2, \cdots, Y_{n_2}を、正規母集団N(\mu_2, {\sigma_2}^2)から取り出した標本とする。Y_1, Y_2, \cdots, Y_{n_2}は互いに独立でN(\mu_2, {\sigma_2}^2)に従う。
※題意よりn_1 = 10, n_2 = 8であり代入可能であるが、後の記述を読みやすくする都合で一旦文字でおくこととする。
ただし、\mu_1, \mu_2は母平均、{\sigma_1}^2, {\sigma_2}^2は母分散とする。
今、帰無仮説H_0と対立仮説H_1をそれぞれ次のように仮定する。
H_0 \ : \ \mu_1 = \mu_2 \\
H_1 \ : \ \mu_1 \neq \mu_2
よって帰無仮説H_0を仮定して、仮定が棄却されるかを調べる。つまり
とし、仮定より
{\sigma_1}^2 = {\sigma_2}^2 = {\sigma}^2
とおく(※{\sigma}^2は後の記述を見やすくするため)。ここで、
\begin{alignat*}{2}
\overline{X} &= \cfrac{X_1 + X_2 + \cdots + X_{n_1}}{n_1} \\
\end{alignat*}
\begin{alignat*}{2}
\overline{Y} &= \cfrac{Y_1 + Y_2 + \cdots + Y_{n_2}}{n_2} \\
\end{alignat*}
とおくと、正規分布の再生性より\overline{X}は正規分布N(\mu_1, \frac{{\sigma}^2}{n_1})に、\overline{Y}は正規分布N(\mu_2, \frac{{\sigma}^2}{n_2})にそれぞれ従う。
さらに正規分布の再生性より、\overline{X} - \overline{Y}は正規分布N(\mu_1 - \mu_2, \frac{{\sigma}^2}{n_1} + \frac{{\sigma}^2}{n_2})に従う。ここで確率変数Zを
Z =
\cfrac
{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}
{\sqrt{\cfrac{{\sigma}^2}{n_1} + \cfrac{{\sigma}^2}{n_2}}} \ \cdots \ ①
とおけば、Zは標準正規分布N(0, 1)に従う。しかし、母分散{\sigma}^2が未知であるため確率変数Zの値を求めることができない。
ここで、これ以降はt分布を用いて検定を行う方法を検討する。
X_1, X_2, \cdots, X_{n_1}とY_1, Y_2, \cdots, Y_{n_2}は、それぞれ正規母集団からの標本であるから、
{\chi_1}^2 = \cfrac{1}{{\sigma}^2} \sum_{i = 1}^{n_1} (x_i - \overline{X})^2 \ \dots \ ② \\
{\chi_2}^2 = \cfrac{1}{{\sigma}^2} \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2 \ \cdots \ ③
とおくと、{\chi_1}^2, {\chi_2}^2はそれぞれ自由度n_1 - 1, n_2 - 1のカイ2乗分布に従う。さらにカイ2乗分布の再生性より
{\chi}^2 = {\chi_1}^2 + {\chi_2}^2 \ \cdots \ ④
とおくと、
\begin{alignat*}{2}
{\chi}^2
&= {\chi_1}^2 + {\chi_2}^2 \\
&= \cfrac{1}{{\sigma}^2} \sum_{i = 1}^{n_1} (x_i - \overline{X})^2
+ \cfrac{1}{{\sigma}^2} \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2 \\
&= \cfrac{1}{{\sigma}^2}
\left(
\sum_{i = 1}^{n_1} (x_i - \overline{X})^2
+ \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2
\right)
\end{alignat*}
は、自由度(n_1 - 1) + (n_2 - 2) = n_1 + n_2 - 2のカイ2乗分布に従う。
さて、X_1, X_2, \cdots, X_{n_1}とY_1, Y_2, \cdots, Y_{n_2}の不偏標本分散をそれぞれ{U_1}^2, {U_2}^2とおくと
{U_1}^2 = \cfrac{1}{n_1 - 1} \sum_{i = 1}^{n_1} (x_i - \overline{X})^2 \\
{U_2}^2 = \cfrac{1}{n_2 - 1} \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2
であるが、これらを{\chi_1}^2, {\chi_2}^2を用いて表す。②、③より
\begin{alignat*}{2}
{U_1}^2
&= \cfrac{1}{n_1 - 1} \sum_{i = 1}^{n_1} (x_i - \overline{X})^2 \\
&= \cfrac{{\sigma}^2}{n_1 - 1} \times \cfrac{1}{{\sigma}^2} \sum_{i = 1}^{n_1} (x_i - \overline{X})^2 \\
&= \cfrac{{\sigma}^2}{n_1 - 1} \times {\chi_1}^2
\end{alignat*}
\begin{alignat*}{2}
{U_2}^2
&= \cfrac{1}{n_2 - 1} \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2 \\
&= \cfrac{{\sigma}^2}{n_2 - 1} \times \cfrac{1}{{\sigma}^2} \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2 \\
&= \cfrac{{\sigma}^2}{n_2 - 1} \times {\chi_2}^2
\end{alignat*}
と表せる。ここでさらに
\begin{alignat*}{2}
& {U_1}^2 = \cfrac{{\sigma}^2}{n_1 - 1} \times {\chi_1}^2 \\
\Leftrightarrow & {\chi_1}^2 = \cfrac{n_1 - 1}{{\sigma}^2} \times {U_1}^2 \ \cdots \ ⑤
\end{alignat*}
\begin{alignat*}{2}
& {U_2}^2 = \cfrac{{\sigma}^2}{n_2 - 1} \times {\chi_2}^2 \\
\Leftrightarrow & {\chi_2}^2 = \cfrac{n_2 - 1}{{\sigma}^2} \times {U_2}^2 \ \cdots \ ⑥
\end{alignat*}
とすると、④に⑤、⑥を代入して
\begin{alignat*}{2}
{\chi}^2
&= \cfrac{n_1 - 1}{{\sigma}^2} \times {U_1}^2
+ \cfrac{n_2 - 1}{{\sigma}^2} \times {U_2}^2 \\
&= \cfrac{(n_1 - 1){U_1}^2 + (n_2 - 1){U_2}^2}{{\sigma}^2} \ \cdots \ ⑦
\end{alignat*}
と表せる。ここで統計量Tを次のように定める。
T = \cfrac{Z}{\sqrt{\cfrac{{\chi}^2}{n_1 + n_2 - 2}}}
すると、Tは自由度n_1 + n_2 - 2のt分布に従う。ここで①、⑦より、
\begin{alignat*}{2}
T
&= \cfrac{Z}{\sqrt{\cfrac{{\chi}^2}{n_1 + n_2 - 2}}} \\
&= \cfrac
{\cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\cfrac{{\sigma}^2}{n_1} + \cfrac{{\sigma}^2}{n_2}}}}
{\sqrt{\cfrac{\cfrac{(n_1 - 1){U_1}^2 + (n_2 - 1){U_2}^2}{{\sigma}^2}}{n_1 + n_2 - 2}}} \\
&= \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\cfrac{{\sigma}^2}{n_1} + \cfrac{{\sigma}^2}{n_2}}}
\times
\cfrac
{1}
{\sqrt{\cfrac{\cfrac{(n_1 - 1){U_1}^2 + (n_2 - 1){U_2}^2}{{\sigma}^2}}{n_1 + n_2 - 2}}} \\
&= \cfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\cfrac{{\sigma}^2}{n_1} + \cfrac{{\sigma}^2}{n_2}}}
\times
\cfrac
{1}
{
\sqrt{
\cfrac
{\cfrac{(n_1 - 1){U_1}^2 + (n_2 - 1){U_2}^2}{{\sigma}^2} \times {\sigma}^2}
{(n_1 + n_2 - 2) \times {\sigma}^2}
}
} \\
&=
\cfrac
{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}
{\sigma \sqrt{\cfrac{1}{n_1} + \cfrac{1}{n_2}}}
\times
\cfrac
{1}
{
\cfrac{1}{\sigma}
\sqrt{\cfrac{(n_1 - 1){U_1}^2 + (n_2 - 1){U_2}^2}{(n_1 + n_2 - 2)}}
} \\
&=
\cfrac
{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}
{
\sqrt{
\left( \cfrac{1}{n_1} + \cfrac{1}{n_2} \right)
\times
\cfrac{(n_1 - 1){U_1}^2 + (n_2 - 1){U_2}^2}{n_1 + n_2 - 2}
}
} \\
&\left( =
\cfrac
{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}
{
\sqrt{
\left( \cfrac{1}{n_1} + \cfrac{1}{n_2} \right)
\times
\cfrac{
\displaystyle \sum_{i = 1}^{n_1} (x_i - \overline{X})^2 +
\displaystyle \sum_{j = 1}^{n_2} (y_j - \overline{Y})^2
}
{n_1 + n_2 - 2}
}
}
\right)
\end{alignat*}
である。題意よりn_1 = 10, n_2 = 8であるからn_1 + n_2 - 2 = 10 + 8 - 2 = 16であることと、棄却域Rを、t分布表を用いて
\begin{alignat*}{2}
R &= \{ t | |t| > t_{0.025}(16) \} \\
&= \{ t | t < -2.12, 2.12 < t \}
\end{alignat*}
と定める。ここで確率変数Tの変数において、
n_1 = 10, \\
n_2 = \ 8, \\
\overline{X} = 168.1, \\
\overline{Y} = 164.3, \\
\mu_1 - \mu_2 = 0, \\
X_1, X_2, \cdots, X_{n_1}の標本分散:8.8, \\
Y_1, Y_2, \cdots, Y_{n_2}の標本分散:10.1, \\
{U_1}^2 = \cfrac{10}{9} \times 8.8, \\
{U_2}^2 = \cfrac{8}{7} \times 10.1, \\
であるから、Tの実現値tは次のように求めることができる。
\begin{alignat*}{2}
t
&=
\cfrac
{(168.1 - 164.3) - 0}
{
\sqrt{
\left( \cfrac{1}{10} + \cfrac{1}{8} \right)
\times
\cfrac
{(10 - 1) \times \cfrac{10}{9} \times 8.8 + (8 - 1) \times \cfrac{8}{7} \times 10.1}
{16}
}
} \\
&=
\cfrac
{168.1 - 164.3}
{
\sqrt{
\cfrac{8 + 10}{10 \times 8}
\times
\cfrac
{10 \times 8.8 + 8 \times 10.1}
{16}
}
} \\
&=
\cfrac
{3.8}
{
\sqrt{
\cfrac{18}{10 \times 8}
\times
\cfrac
{8 (5 \times 2.2 + 10.1)}
{16}
}
} \\
&=
\cfrac
{3.8}
{
\sqrt{
\cfrac{9}{5}
\times
\cfrac
{21.1}
{16}
}
} \\
&= \cfrac{3.8}{\sqrt{\cfrac{189.9}{80}}} \\
&= \cfrac{3.8}{\sqrt{2.37375}} \\
&\fallingdotseq \cfrac{3.8}{1.54} \\
&\fallingdotseq 2.468 \in R \\
\end{alignat*}
したがって帰無仮説H_0は棄却される。つまりA, Bのエサの効果は異なり、Aのほうが平均値が高いことからAの方がよいといえる。
(2) 母分散が等しくないとき
準備中(。´・ω・)
参考資料
\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。
Discussion