📊

【統計検定準1級】独立性の検定

に公開

はじめに

この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。

【リンク紹介】
統計検定準1級のまとめ記事一覧
これまで書いたシリーズ記事一覧

学習書籍について

この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。


参考書籍について

統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。


独立性の検定

一般論

分割表

大きさがn個の標本が2種類の属性A, Bをもち、rc個の部分集団に分割されているとする(r, c \in \mathbb{N})
このとき、属性A, Bの独立性の検定を行うにあたり、以下に分割表を定義する。

属性Aカテゴリー(事象)をA_iとして(row)に配置し、属性BカテゴリーB_jとして(column)に配置する。ただし、i = 1, \cdots, rj = 1, \cdots, cとする。そしてA_iB_j列のセルには、カテゴリーA_iとカテゴリーB_jを同時に満たす観測度数x_{ij}をおくとする。x_{i \bullet}, \ x_{\bullet j}

x_{i \bullet} = \sum_{j = 1}^{c} x_{ij}, \\ x_{\bullet j} = \sum_{i = 1}^{r} x_{ij}

と定め、それぞれA_i, B_jの周辺度数とする。

これらを以下のようにまとめた表を(r \times c)分割表(contingency table)という。

\begin{array}{c|cccccc|c} & B_1 & B_2 & \cdots & B_j & \cdots & B_c & \text{計} \\ \hline A_1 & x_{11} & x_{12} & \cdots & x_{1j} & \cdots & x_{1c} & x_{1 \bullet} \\ A_2 & x_{21} & x_{22} & \cdots & x_{2j} & \cdots & x_{2c} & x_{2 \bullet} \\ \vdots & \vdots & \vdots & \cdots & \vdots & \cdots & \vdots & \vdots \\ A_i & x_{i1} & x_{i2} & \cdots & x_{ij} & \cdots & x_{ic} & x_{i \bullet} \\ \vdots & \vdots & \vdots & \cdots & \vdots & \cdots & \vdots & \vdots \\ A_r & x_{r1} & x_{r2} & \cdots & x_{rj} & \cdots & x_{rc} & x_{r \bullet} \\ \hline \text{計} & x_{\bullet 1} & x_{\bullet 2} & \cdots & x_{\bullet j} & \cdots & x_{\bullet c} & n \\ \end{array}

帰無仮説:A,Bは互いに独立している

さて、属性A, Bの独立性を検定するために、帰無仮説H_0を「A, Bは互いに独立している」とし、対立仮説を「A, Bは互いに独立していない」とする。

ここで、A_i \cap B_jの理論確率P(A_i \cap B_j)(またはP(A_i, B_j))をp_{ij}とおき、A_i, B_jの理論確率P(A_i), P(B_j)をそれぞれp_{i \bullet}, p_{\bullet j}とおくと、このp_{i \bullet}, p_{\bullet j}p_{ij}を用いて次のように表すことができる。

p_{i \bullet} = \sum_{j = 1}^{c} p_{ij}, \\ p_{\bullet j} = \sum_{i = 1}^{r} p_{ij}

このとき「A, Bは互いに独立している」とは、

「すべてのi, jに対して

\begin{alignat*}{2} p_{ij} &= p_{i \bullet} p_{\bullet j} \\ (&= \sum_{j = 1}^{c} p_{ij} \times \sum_{i = 1}^{r} p_{ij}) \end{alignat*}

が成り立つ」ことである。ここで、p_{ij}, p_{i \bullet} ,p_{\bullet j}が未知のとき、推定値\hat{p}_{ij}\hat{p}_{i \bullet}, \hat{p}_{\bullet j}

\hat{p}_{i \bullet} = \cfrac{x_{i \bullet}}{n}, \ \ \hat{p}_{\bullet j} = \cfrac{x_{\bullet j}}{n}

とおくと、

\begin{alignat*}{2} \hat{p}_{ij} &= \hat{p}_{i \bullet} \ \hat{p}_{\bullet j} \\ &= \cfrac{x_{i \bullet}}{n} \times \cfrac{x_{\bullet j}}{n} \\ &= \cfrac{x_{i \bullet} \ x_{\bullet j}}{n^2} \end{alignat*}

と表すことができる。なお、これらの推定値は最尤推定量であることがわかっている(証明および補足は別途準備)。

nが十分に大きいとき、統計量Y

Y = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{(x_{ij} - n p_{ij})^2}{n p_{ij}} \ \ \cdots (※)

と定めると、Yは自由度(r - 1)(c - 1)のカイ二乗分布に従う。これ以降は適合度検定と同様にして求めることができる。

なお(※)は、計算を簡単にするために以下のように式変形したものを使用することとする。ただし理論確率は未知であるとし、代わりに上記の推定値を用いるものとする。

\begin{alignat*}{2} Y &= \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{(x_{ij} - n \hat{p}_{ij})^2}{n \hat{p}_{ij}} \\ &= \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{\left(x_{ij} - \cfrac{x_{i \bullet} \ x_{\bullet j}}{n} \right)^2} {\cfrac{x_{i \bullet} \ x_{\bullet j}}{n}} \\ &= \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{(n x_{ij} - x_{i \bullet} \ x_{\bullet j})^2} {n x_{i \bullet} \ x_{\bullet j}} \\ &= \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{(n x_{ij})^2 - 2 n x_{ij} \ x_{i \bullet} \ x_{\bullet j} +(x_{i \bullet} \ x_{\bullet j})^2} {n x_{i \bullet} \ x_{\bullet j}} \\ &= \sum_{i = 1}^{r} \sum_{j = 1}^{c} \left( n \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - 2n \cfrac{x_{ij}}{n} + n \cfrac{x_{i \bullet}}{n} \times \cfrac{x_{\bullet j}}{n} \right) \\ &= n \sum_{i = 1}^{r} \sum_{j = 1}^{c} \left( \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - 2 \cfrac{x_{ij}}{n} + \cfrac{x_{i \bullet}}{n} \times \cfrac{x_{\bullet j}}{n} \right) \\ &= n \sum_{i = 1}^{r} \sum_{j = 1}^{c} \left( \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - 2 \hat{p}_{ij} + \hat{p}_{i \bullet} \ \hat{p}_{\bullet j} \right) \\ &= n \sum_{i = 1}^{r} \sum_{j = 1}^{c} \left( \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - 2 \hat{p}_{ij} + \hat{p}_{ij} \right) \\ &= n \sum_{i = 1}^{r} \sum_{j = 1}^{c} \left( \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - \hat{p}_{ij} \right) \\ &= n \left( \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - \sum_{i = 1}^{r} \sum_{j = 1}^{c} \hat{p}_{ij} \right) \\ &= n \left( \sum_{i = 1}^{r} \sum_{j = 1}^{c} \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - 1 \right) \\ \end{alignat*}

例題

(「統計学入門」より)
職業(属性A)別に2種類の新聞(属性B)の購読者を調べたところ,次の通りであった。両社に関連ありといえるか。

\begin{array}{c|cc|c} & B_1 & B_2 & \text{計} \\ \hline \text{会社員} (A_1) & 165 & 135 & 300 \\ \text{商業} (A_2) & 145 & 90 & 235 \\ \text{農業} (A_3) & 55 & 110 & 165 \\ \hline \text{計} & 365 & 335 & 700 \\ \end{array}

例題の解答

「職業と新聞は関連がない(つまり独立している)」という仮説を帰無仮説H_0とし、
「職業と新聞は関連がある」という仮説を対立仮説H_1
として、統計的仮説検定を行う。ただし有意水準は\alpha = 0.05であると仮定する。

今、帰無仮説H_0と対立仮説H_1をそれぞれ次のように仮定する。

\begin{alignat*}{2} H_0 \ &: \ すべてのi, jに対して \ p_{ij} = p_{i \bullet} \ p_{\bullet j} \\ H_1 \ &: \ 「すべてのi, jに対して \ p_{ij} = p_{i \bullet} \ p_{\bullet j}」ではない \\ & \ (つまり、あるi, jが存在して \ p_{ij} \neq p_{i \bullet} \ p_{\bullet j}) \end{alignat*}

よって帰無仮説H_0を仮定して、仮定が棄却されるかを調べる。つまり

すべてのi, jに対して \ p_{ij} = p_{i \bullet} \ p_{\bullet j}

とする。ここで統計量Y

Y = n \left( \sum_{i = 1}^{3} \sum_{j = 1}^{2} \cfrac{x_{ij}^2}{x_{i \bullet} \ x_{\bullet j}} - 1 \right)

と定めると、Yは自由度(3 - 1)(2 - 1) = 2カイ2乗分布に従う。よって有意水準が\alpha = 0.05であることとカイ2乗分布表を用いて、棄却域Rを、

\begin{alignat*}{2} R &= \{ y | y > \chi^2_{0.05} (2)\} \\ &= \{ y | y > 5.99 \} \end{alignat*}

と定めると、Yの実現値y

\begin{alignat*}{2} y &= 700 \times \left( \cfrac{165^2}{300 \times 365} + \cfrac{135^2}{300 \times 335} + \cfrac{145^2}{235 \times 365} + \cfrac{ 90^2}{235 \times 335} + \cfrac{ 55^2}{165 \times 365} + \cfrac{110^2}{165 \times 335} - 1 \right) \\ &= 700 \times \left( \cfrac{27225}{109500} + \cfrac{18225}{100500} + \cfrac{21025}{85775} + \cfrac{8100}{78725} + \cfrac{3025}{60225} + \cfrac{12100}{55275} - 1 \right) \\ &= 700 \times \left( 0.2486 + 0.1813 + 0.2451 + 0.1028 + 0.0502 + 0.2189 - 1 \right) \\ &= 700 \times \left( 1.0469 - 1 \right) \\ &= 700 \times 0.0469 \\ &= 32.83 \in R \end{alignat*}

したがって帰無仮説H_0は棄却される。つまり職業と新聞は関連がある



参考資料

\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。

Discussion