📊

【統計検定準1級】前提知識:母集団と標本

2024/07/24に公開

はじめに

この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。

【リンク紹介】
統計検定準1級のまとめ記事一覧
これまで書いたシリーズ記事一覧

学習書籍について

この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。


参考書籍について

統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。
※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。


0.基礎用語の定義

  • 観測:調査や実験のこと。
  • 観測値:観察をして得られた情報のこと。
  • データ:各「個体」の観測値をまとめたもの。
  • 確率分布(または分布):確率関数または確率密度関数

1.全数調査(悉皆調査)

調査の対象である集団全体の調査を全数調査(complete enumeration)という。または悉皆(しっかい)調査ともいう。

1.1.母集団

全数調査における集団全体のことを母集団(population)という。

1.1.1.有限母集団

母集団に含まれるデータが有限個であるとき、この母集団を有限母集団(finite population)という。

1.1.2.無限母集団

母集団に含まれるデータが無限個であるとき、この母集団を無限母集団(infinite population)という。

2.標本調査

調査の対象である集団全体ではなく、その一部を取り出して行う調査を標本調査(sample survey)という。

2.1.標本

母集団から取り出した一部のデータのことを標本(sample)という。
標本は、X_1, X_2, \cdots, X_nを用いて表す。
なおX_1, X_2, \cdots, X_nは確率変数であり、これは母集団からの「標本抽出が無作為に確率的に行われるから」である。(「現代数理統計学」.竹村彰通.2020より)

2.2.標本抽出

標本を母集団から取り出すことを標本抽出(sampling)という。

2.2.1.復元抽出

取り出したものを元に戻してから次のものを取り出す標本抽出を、復元抽出(sampling with replacement)という。

2.2.2.非復元抽出

取り出したものを元に戻さないで次のものを取り出す標本抽出を、非復元抽出(sampling without replacement)という。

2.2.3.有意抽出

調査者が自分の経験や知識によって母集団を最も良く代表するものを選び出す標本抽出を、有意抽出(purposive selection)という。

2.2.3.無作為抽出

偶然性に基づいて取り出す標本抽出を、無作為抽出(random sampling)という。

3.特性値

データの集団があるとき、その全体の状態を数値で表したものを特性値という。
例:平均、分散、標準偏差、メディアン、最小値、最大値、相関係数等。

3.1.母数(パラメータ)

母集団の特性値を母数(parameter)という。母数は\thetaまたは\theta_i (i = 1, 2, \cdots)を用いて表す。

[母数の例]
Xを母集団を構成している単位としての確率変数であるとする。このとき、確率変数X母平均(population mean)、母分散(population variance)をそれぞれ\mu, \sigma^2とし、それぞれ以下のように定義する。

母平均\mu

\begin{alignat*}{2} \mu &= E[X] \end{alignat*}

母分散\sigma^2

\begin{alignat*}{2} \sigma^2 &= V[X] \\ &= E[(X - \mu)^2] \\ &= E[X^2] - \mu^2 \end{alignat*}

3.1.1.推定

標本から母数を求めることを推定(estimation)という。

3.1.2.母数空間

母数がとりうる値の集合を母数空間(parameter space)といい、\Thetaで表す。

3.2.統計量

標本の特性値を統計量(statistic)という。つまり、
X_1, X_2, \cdots, X_n:標本
t:関数
とするとき、統計量を以下のように定義する。

t(X_1, X_2, \cdots, X_n)

統計量は確率変数となり確率分布を持つが、この統計量の確率分布を標本分布(sampling distribution)という。

[統計量の例]
標本X_1, X_2, \cdots, X_nに対して標本平均(sample mean)、標本分散(sample variance)をそれぞれ\overline{X}, S^2とし、それぞれ以下のように定義する。

標本平均\overline{X}

\begin{alignat*}{2} \overline{X} &= t_1(X_1, X_2, \cdots, X_n) \\ &= \cfrac{X_1 + X_2 + \cdots + X_n}{n} \\ &= \cfrac{1}{ \ n \ } \sum_{i = 1}^{n} X_i \end{alignat*}

標本分散S^2

\begin{alignat*}{2} S^2 &= t_2(X_1, X_2, \cdots, X_n) \\ &= \cfrac{(X_1 - \overline{X})^2 + (X_2 - \overline{X})^2 + \cdots + (X_n - \overline{X})^2 }{n} \\ &= \cfrac{1}{ \ n \ } \sum_{i = 1}^{n} (X_i - \overline{X})^2 \end{alignat*}

3.2.1.推定量

母数の推定のために用いられる統計量を推定量(estimator)という。つまり、
X_1, X_2, \cdots, X_n:標本
\theta:母数(パラメータ)
h:関数
とするとき、推定量\hat{\theta}を以下のように定義する。

\hat{\theta} = h(X_1, X_2, \cdots, X_n)

母数\thetaまたは\theta_i (i = 1, 2, \cdots)に対して、推定量は\hat{\theta}または\hat{\theta_i} (i = 1, 2, \cdots)を用いて表す。
推定量の性質として不偏性有効性一致性がある。

3.2.1.1.推定量の性質:不偏性(unbiasedness)

任意の\theta \in \Thetaに対して

E[\hat{\theta} = \theta]

が成り立つとき、\hat{\theta}\theta不偏推定量(unbiansed estimator)という。

[不偏性の例]
X_i (i = 1, 2, \cdots, n):標本
\mu母平均
\sigma^2母分散

標本平均\overline{X}

\begin{alignat*}{2} \overline{X} &= \cfrac{1}{ \ n \ } \sum_{i = 1}^{n} X_i \end{alignat*}

とする。このとき、標本分布S^2 = \cfrac{1}{ \ n \ } \displaystyle\sum_{i = 1}^{n} (X_i - \overline{X})^2不偏推定量ではない

(証明)

E[S^2] \neq \sigma^2

であることを示せばよい。

\begin{alignat*}{2} E \left[ S^2 \right] &= E \left[\cfrac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2 \right] \\ &= E \left[ \cfrac{1}{n} \sum_{i = 1}^{n} ((X_i - \mu) + (\mu - \overline{X}))^2 \right] \\ &= E \left[ \cfrac{1}{n} \sum_{i = 1}^{n} ((X_i - \mu)^2 + 2(X_i - \mu)(\mu - \overline{X}) + (\mu - \overline{X})^2) \right] \\ &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 + \sum_{i = 1}^{n} 2(X_i - \mu)(\mu - \overline{X}) + \sum_{i = 1}^{n} (\mu - \overline{X})^2 \right) \right] \\ &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 + 2(\mu - \overline{X}) \sum_{i = 1}^{n} (X_i - \mu) + n (\mu - \overline{X})^2 \right) \right] \\ & \hspace{5mm} ※ \mu - \overline{X} \text{が定数であることに注意} \end{alignat*}

ここで、

\sum_{i = 1}^{n} (X_i - \mu) = -n(\mu - \overline{X}) \hspace{5mm} \cdots ①

である。

①の証明
\begin{alignat*}{2} \sum_{i = 1}^{n} (X_i - \mu) &= (X_1 - \mu) + (X_2 - \mu) + \cdots + (X_n - \mu) \\ &= (X_1 + X_2 + \cdots + X_n) - n \mu \\ &= n \cdot \cfrac{X_1 + X_2 + \cdots + X_n}{n} - n \mu \\ &= n \overline{X} - n \mu \\ &= n (\overline{X} - \mu) \\ &= - n (\mu - \overline{X}) \end{alignat*}

よって、

\begin{alignat*}{2} E \left[ S^2 \right] &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 + 2(\mu - \overline{X}) \sum_{i = 1}^{n} (X_i - \mu) + n (\mu - \overline{X})^2 \right) \right] \\ &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 + 2 (\mu - \overline{X})(-n (\mu - \overline{X})) + n (\mu - \overline{X})^2 \right) \right] \\ &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 - 2n (\mu - \overline{X})^2 + n (\mu - \overline{X})^2 \right) \right] \\ &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 - n (\mu - \overline{X})^2 \right) \right] \\ &= E \left[ \cfrac{1}{n} \left( \sum_{i = 1}^{n} (X_i - \mu)^2 - n (\overline{X} - \mu)^2 \right) \right] \\ &= \cfrac{1}{n} \left( E \left[ \sum_{i = 1}^{n} (X_i - \mu)^2 \right] - n E \left[ (\overline{X} - \mu)^2 \right] \right) \\ \end{alignat*}

と変形できる。

ここで、

E \left[ \sum_{i = 1}^{n} (X_i - \mu)^2 \right] = n \sigma^2 \hspace{5mm} \cdots ②
②の証明

母分散の定義を途中で用います。

\begin{alignat*}{2} E \left[ \sum_{i = 1}^{n} (X_i - \mu)^2 \right] &= E[(X_1 - \mu)^2 + (X_2 - \mu)^2 + \cdots + (X_n - \mu)^2] \\ &= E[(X_1 - \mu)^2] + E[(X_2 - \mu)^2] + \cdots + E[(X_n - \mu)^2] \\ &= V[X_1] + V[X_2] + \cdots + V[X_n] \\ &= \sigma^2 + \sigma^2 + \cdots + \sigma^2 \\ &= n \sigma^2 \end{alignat*}

であり、

E \left[ (\overline{X} - \mu)^2 \right] = \cfrac{\sigma^2}{n} \cdots ③
③の証明
\begin{alignat*}{2} E \left[ (\overline{X} - \mu)^2 \right] &= V \left[ \overline{X} \right] \\ &= V \left[ \cfrac{X_1 + X_2 + \cdots + X_n}{n} \right] \\ &= V \left[ \cfrac{X_1}{n} \right] + V \left[ \cfrac{X_2}{n} \right] + \cdots + V \left[ \cfrac{X_n}{n} \right] \\ &= \cfrac{1}{n^2} V \left[ X_1 \right] + \cfrac{1}{n^2} V \left[ X_2 \right] + \cdots + \cfrac{1}{n^2} V \left[ X_n \right] \\ &= \cfrac{1}{n^2} \sigma^2 + \cfrac{1}{n^2} \sigma^2 + \cdots + \cfrac{1}{n^2} \sigma^2 \\ &= n \cdot \cfrac{\sigma^2}{n^2} \\ &= \cfrac{\sigma^2}{n} \end{alignat*}

であるので、

\begin{alignat*}{2} E \left[ S^2 \right] &= \cfrac{1}{n} \left( E \left[ \sum_{i = 1}^{n} (X_i - \mu)^2 \right] - n E \left[ (\overline{X} - \mu)^2 \right] \right) \\ &= \cfrac{1}{n} \left( n \sigma^2 - n \cfrac{\sigma^2}{n} \right) \\ &= \left( 1 - \cfrac{1}{n} \right) \sigma^2 \\ &= \cfrac{n - 1}{n} \sigma^2 \\ & \neq \sigma^2 \end{alignat*} (証明終)

不変標本分布

しかし、この証明の結論から逆算して意図的に不偏性を持つ推定量が作られた。
それが不偏標本分散U^2である。つまり、

\begin{alignat*}{2} U^2 &= \cfrac{n}{n - 1} S^2 \\ &= \cfrac{n}{n - 1} \cdot \cfrac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2\\ &= \cfrac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \overline{X})^2 \end{alignat*}

を不偏標本分散といい、当然不偏性を持つ。実際に

\begin{alignat*}{2} E[S^2] &= \cfrac{n - 1}{n} \sigma^2 \\ \cfrac{n}{n - 1} E[S^2] &= \cfrac{n}{n - 1} \cdot \cfrac{n - 1}{n} \sigma^2 \\ E \left[ \cfrac{n}{n - 1} S^2 \right] &= \sigma^2 \\ E [U^2] &= \sigma^2 \\ \end{alignat*}

である。

3.2.1.2.推定量の性質:有効性(efficiency)

\thetaの2つの不偏推定量\hat{\theta_1}, \hat{\theta_2}に対して

V[\hat{\theta_1}] < V[\hat{\theta_2}]

が成り立つとき、\hat{\theta_1}\hat{\theta_2}よりも有効である(efficient)という。

3.2.1.3.推定量の性質:一致性(consistency)

任意の\epsilon > 0に対して

\lim_{n \to \infty} P(|\hat{\theta_n} - \theta| > \epsilon) = 0

が成り立つとき、\hat{\theta_n}\theta一致推定量(consistent estimator)という。

3.2.2.推定値

推定量の具体的な値を推定値(estimate)という。

4.統計的推論

標本から確率論に基づいて母集団についての結論を求めることを統計的推論(statistical inference)という。有意抽出は統計的推測はできないので注意。

参考資料

\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。

Discussion