📊
【統計検定準1級】前提知識：母集団と標本

2024/07/24に公開
 はじめにこの記事では、統計検定準1級取得に向けて学習したことをまとめていきます。

工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。

注意：さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。
【リンク紹介】

・統計検定準1級のまとめ記事一覧

・これまで書いたシリーズ記事一覧

 学習書籍についてこの記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。



 参考書籍について統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。

※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。



 0.基礎用語の定義
観測：調査や実験のこと。

観測値：観察をして得られた情報のこと。

データ：各「個体」の観測値をまとめたもの。
確率分布（または分布）：確率関数または確率密度関数

 1.全数調査（悉皆調査）調査の対象である集団全体の調査を全数調査(complete enumeration)という。または悉皆（しっかい）調査ともいう。

 1.1.母集団全数調査における集団全体のことを母集団(population)という。

 1.1.1.有限母集団母集団に含まれるデータが有限個であるとき、この母集団を有限母集団(finite population)という。

 1.1.2.無限母集団母集団に含まれるデータが無限個であるとき、この母集団を無限母集団(infinite population)という。

 1.2.母集団分布母集団を特徴づける確率分布を母集団分布(population distribution)という。

 1.2.1.正規母集団母集団の母集団分布が正規分布であるとき、この母集団を正規母集団という。

 2.標本調査調査の対象である集団全体ではなく、その一部を取り出して行う調査を標本調査(sample survey)という。

 2.1.標本母集団から取り出した一部のデータのことを標本(sample)という。

標本は、X_1, X_2, \cdots, X_nを用いて表す。

なおX_1, X_2, \cdots, X_nは確率変数であり、これは母集団からの「標本抽出が無作為に確率的に行われるから」である。(「現代数理統計学」.竹村彰通.2020より)
!標本とデータの定義
標本とデータについて以下の定義をご覧ください。
標本調査の場合、母集団から無作為に取り出した母集団の一部を、

(x_1, x_2, \cdots, x_n)
とすると、各x_iは取り出すまでは値が分からないから、母分布ど同一の確率分布に従う確率変数X_iの値（実現値）と考えられる。このとき、
(X_1, X_2, \cdots, X_n)をサイズ（大きさ）nの標本変量または標本、

(x_1, x_2, \cdots, x_n)をサイズ（大きさ）nの標本値またはデータ、

という。
（「新統計入門」.小寺 平治.1996）より
この定義では、データとは標本に対する値として定義されています。が、書籍によっては母集団の要素に対してもデータといっており、こちらの方が今日のデータのイメージと近いので、私の記事では後者の定義を採用します。

ただし、紹介した定義は標本をとらえるのに非常にわかりやすい定義なので、是非参考にされてください。

 2.1.1.標本空間標本Xの標本値（データ）の属する集合を標本空間(sample space)といい、\mathscr{X}（Xの花文字）と表す。(「現代数理統計学」.竹村彰通.2020より)

※確率論では\mathscr{X}ではなく\Omegaを用いることが多い印象です。

 2.2.標本抽出標本を母集団から取り出すことを標本抽出(sampling)という。

 2.2.1.復元抽出取り出したものを元に戻してから次のものを取り出す標本抽出を、復元抽出(sampling with replacement)という。

 2.2.2.非復元抽出取り出したものを元に戻さないで次のものを取り出す標本抽出を、非復元抽出(sampling without replacement)という。

 2.2.3.有意抽出調査者が自分の経験や知識によって母集団を最も良く代表するものを選び出す標本抽出を、有意抽出(purposive selection)という。

 2.2.3.無作為抽出偶然性に基づいて取り出す標本抽出を、無作為抽出(random sampling)という。

 3.特性値データの集団があるとき、その全体の状態を数値で表したものを特性値という。

例：平均、分散、標準偏差、メディアン、最小値、最大値、相関係数等。

 3.1.母数（パラメータ）母集団の特性値を母数(parameter)という。母数は\thetaまたは\theta_i (i = 1, 2, \cdots)を用いて表す。
[母数の例]

Xを母集団を構成している単位としての確率変数であるとする。このとき、確率変数Xの母平均(population mean)、母分散(population variance)をそれぞれ\mu, \sigma^2とし、それぞれ以下のように定義する。

 母平均\mu

\begin{alignat*}{2}
\mu &= E[X]
\end{alignat*}
!母比率
母平均のうち、母集団におけるある特性を持つデータの割合を表すものを母比率(population proportion)という。

 母分散\sigma^2

\begin{alignat*}{2}
\sigma^2 &= V[X] \\
         &= E[(X - \mu)^2] \\
         &= E[X^2] - \mu^2
\end{alignat*}

 3.1.1.推定標本から母数を求めることを推定(estimation)という。

 3.1.2.母数空間母数がとりうる値の集合を母数空間(parameter space)といい、\Thetaで表す。

 3.2.統計量標本の特性値を統計量(statistic)という。つまり、

X_1, X_2, \cdots, X_n：標本

t：関数

とするとき、統計量を以下のように定義する。

t(X_1, X_2, \cdots, X_n)
統計量は確率変数となり確率分布を持つが、この統計量の確率分布を標本分布(sampling distribution)という。
[統計量の例]

標本X_1, X_2, \cdots, X_nに対して標本平均(sample mean)、標本分散(sample variance)をそれぞれ\overline{X}, S^2（または\overline{X_n}, {S_n}^{2}）とし、それぞれ以下のように定義する。

 標本平均\overline{X}

\begin{alignat*}{2}
\overline{X} &= t_1(X_1, X_2, \cdots, X_n) \\
             &= \cfrac{X_1 + X_2 + \cdots + X_n}{n} \\
             &= \cfrac{1}{ \ n \ } \sum_{i = 1}^{n} X_i
\end{alignat*}
!標本比率
標本平均のうち、ベルヌーイ分布からの無作為標本による確率変数を用いて定めたもののように、母集団におけるある特性を持つデータの割合を推定するものを、標本比率(sample proportion)という。
※母比率や標本比率は、区間推定の分野でほぼ必ず現れるのに、なぜか定義をきちんと明言しているテキストが異常に少ないです。この記事の標本比率の定義は、私は確率と統計: 一から学ぶ数理統計学 (数学のかんどころ 39)を参考にしました。

また、標本比率の直観的な理解としては、たまたま扱っている確率変数の和が、母集団のデータ数をカウンティングしているのと同義になるようなものは、標本比率になり得ます。ベルヌーイ試行においては、確率変数の和が、全試行回数（＝母集団）のうちの成功回数のカウンティングになっているため、このように呼ぶことができるわけです。

 標本分散S^2

\begin{alignat*}{2}
S^2 &= t_2(X_1, X_2, \cdots, X_n) \\
    &= \cfrac{(X_1 - \overline{X})^2 + 
              (X_2 - \overline{X})^2 + 
              \cdots + 
              (X_n - \overline{X})^2
             }{n} \\
    &= \cfrac{1}{ \ n \ } \sum_{i = 1}^{n} (X_i - \overline{X})^2
\end{alignat*}

 3.2.1.推定量母数の推定のために用いられる統計量を推定量(estimator)という。つまり、

X_1, X_2, \cdots, X_n：標本

\theta：母数（パラメータ）

h：関数

とするとき、推定量\hat{\theta}を以下のように定義する。

\hat{\theta} = h(X_1, X_2, \cdots, X_n)
母数\thetaまたは\theta_i (i = 1, 2, \cdots)に対して、推定量は\hat{\theta}または\hat{\theta_i} (i = 1, 2, \cdots)を用いて表す。

推定量の性質として不偏性、有効性、一致性がある。
!母数は未知？既知？
テキストによって丁寧に「未知の母数」と書かれているものとそうでないものがありますが、推定をするということは母数が未知であることに他ならないので、推定する母数は記載がなくとも「未知である」と認識してください。

　逆に、ある特定の母数が「既知」であることを前提とした議論をしなければならない場合は、ほぼ例外なく「既知の母数」と明言されているので、そちらは迷わないと思います。

 3.2.1.1.推定量の性質：不偏性(unbiasedness)任意の\theta \in \Thetaに対して

E[\hat{\theta}] = \theta
が成り立つとき、\hat{\theta}を\thetaの不偏推定量(unbiansed estimator)という。
[不偏性の例]

X_i (i = 1, 2, \cdots, n)：標本

\mu：母平均

\sigma^2：母分散
標本平均\overline{X}を

\begin{alignat*}{2}
\overline{X} &= \cfrac{1}{ \ n \ } \sum_{i = 1}^{n} X_i
\end{alignat*}
とする。このとき、標本分布S^2 = \cfrac{1}{ \ n \ } \displaystyle\sum_{i = 1}^{n} (X_i - \overline{X})^2は不偏推定量ではない。
（証明）

E[S^2] \neq \sigma^2
であることを示せばよい。

\begin{alignat*}{2}
E \left[ S^2 \right] 
&= E \left[\cfrac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2 \right] \\
&= E \left[
     \cfrac{1}{n} \sum_{i = 1}^{n} ((X_i - \mu) + (\mu - \overline{X}))^2 
     \right] \\
&= E \left[
     \cfrac{1}{n} \sum_{i = 1}^{n} ((X_i - \mu)^2 + 
                                    2(X_i - \mu)(\mu - \overline{X}) +
                                    (\mu - \overline{X})^2) 
     \right] \\
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 + 
       \sum_{i = 1}^{n} 2(X_i - \mu)(\mu - \overline{X}) +
       \sum_{i = 1}^{n} (\mu - \overline{X})^2
       \right)
     \right] \\
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 + 
       2(\mu - \overline{X}) \sum_{i = 1}^{n} (X_i - \mu) +
       n (\mu - \overline{X})^2
       \right)
     \right] \\
& \hspace{5mm} ※ \mu - \overline{X} \text{が定数であることに注意}
\end{alignat*}
ここで、

\sum_{i = 1}^{n} (X_i - \mu) = -n(\mu - \overline{X}) \hspace{5mm} \cdots ①
である。
①の証明

\begin{alignat*}{2}
\sum_{i = 1}^{n} (X_i - \mu)
&= (X_1 - \mu) + (X_2 - \mu) + \cdots + (X_n - \mu) \\
&= (X_1 + X_2 + \cdots + X_n) - n \mu \\
&= n \cdot \cfrac{X_1 + X_2 + \cdots + X_n}{n} - n \mu \\
&= n \overline{X} - n \mu \\
&= n (\overline{X} - \mu) \\
&= - n (\mu - \overline{X})
\end{alignat*}

よって、

\begin{alignat*}{2}
E \left[ S^2 \right] 
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 + 
       2(\mu - \overline{X}) \sum_{i = 1}^{n} (X_i - \mu) +
       n (\mu - \overline{X})^2
       \right)
     \right] \\
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 + 
       2 (\mu - \overline{X})(-n (\mu - \overline{X})) +
       n (\mu - \overline{X})^2
       \right)
     \right] \\
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 - 
       2n (\mu - \overline{X})^2 +
       n (\mu - \overline{X})^2
       \right)
     \right] \\
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 - 
       n (\mu - \overline{X})^2
       \right)
     \right] \\
&= E \left[
     \cfrac{1}{n}
       \left(
       \sum_{i = 1}^{n} (X_i - \mu)^2 - 
       n (\overline{X} - \mu)^2
       \right)
     \right] \\
&= \cfrac{1}{n}
   \left(
     E 
     \left[  
       \sum_{i = 1}^{n} (X_i - \mu)^2
     \right] -
     n E
     \left[
       (\overline{X} - \mu)^2
     \right]
   \right) \\
\end{alignat*}
と変形できる。
ここで、

E \left[ \sum_{i = 1}^{n} (X_i - \mu)^2 \right] = n \sigma^2 \hspace{5mm} \cdots ②
②の証明母分散の定義を途中で用います。

\begin{alignat*}{2}
E \left[ \sum_{i = 1}^{n} (X_i - \mu)^2 \right] 
&= E[(X_1 - \mu)^2 + (X_2 - \mu)^2 + \cdots + (X_n - \mu)^2] \\
&= E[(X_1 - \mu)^2] + E[(X_2 - \mu)^2] + \cdots + E[(X_n - \mu)^2] \\
&= V[X_1] + V[X_2] + \cdots + V[X_n] \\
&= \sigma^2 + \sigma^2 + \cdots + \sigma^2 \\
&= n \sigma^2
\end{alignat*}
であり、

E \left[ (\overline{X} - \mu)^2 \right] = \cfrac{\sigma^2}{n} \cdots ③
③の証明

\begin{alignat*}{2}
E \left[ (\overline{X} - \mu)^2 \right] 
&= V \left[ \overline{X} \right] \\
&= V \left[ \cfrac{X_1 + X_2 + \cdots + X_n}{n} \right] \\
&= V \left[ \cfrac{X_1}{n} \right] +
   V \left[ \cfrac{X_2}{n} \right] +
   \cdots + 
   V \left[ \cfrac{X_n}{n} \right] \\
&= \cfrac{1}{n^2} V \left[ X_1 \right] +
   \cfrac{1}{n^2} V \left[ X_2 \right] +
   \cdots + 
   \cfrac{1}{n^2} V \left[ X_n \right] \\
&= \cfrac{1}{n^2} \sigma^2 +
   \cfrac{1}{n^2} \sigma^2 +
   \cdots + 
   \cfrac{1}{n^2} \sigma^2 \\
&= n \cdot \cfrac{\sigma^2}{n^2} \\
&= \cfrac{\sigma^2}{n}
\end{alignat*}

であるので、

\begin{alignat*}{2}
E \left[ S^2 \right] 
&= \cfrac{1}{n}
   \left(
     E 
     \left[  
       \sum_{i = 1}^{n} (X_i - \mu)^2
     \right] -
     n E
     \left[
       (\overline{X} - \mu)^2
     \right]
   \right) \\
&= \cfrac{1}{n}
   \left(
     n \sigma^2 -
     n \cfrac{\sigma^2}{n}
   \right) \\
&= \left(
     1 -
     \cfrac{1}{n}
   \right) \sigma^2 \\
&= \cfrac{n - 1}{n} \sigma^2 \\
& \neq \sigma^2
\end{alignat*}
(証明終)
 不変標本分布しかし、この証明の結論から逆算して意図的に不偏性を持つ推定量が作られた。

それが不偏標本分散U^2である。つまり、

\begin{alignat*}{2}
U^2 &= \cfrac{n}{n - 1} S^2 \\
    &= \cfrac{n}{n - 1} \cdot \cfrac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2\\
    &= \cfrac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \overline{X})^2
\end{alignat*}
を不偏標本分散といい、当然不偏性を持つ。実際に

\begin{alignat*}{2}
E[S^2]                  &= \cfrac{n - 1}{n} \sigma^2 \\
\cfrac{n}{n - 1} E[S^2] &= \cfrac{n}{n - 1} \cdot \cfrac{n - 1}{n} \sigma^2 \\
E \left[
  \cfrac{n}{n - 1} S^2
  \right]               &= \sigma^2 \\
E [U^2]                 &= \sigma^2 \\
\end{alignat*}
である。
!標本分散と不偏標本分散って何が違うの？

　証明をご理解いただいた人たちにとっては今や明らかになったことと思いますが、標本分散と不偏分散の違いは、不偏性を持つかどうかです。そして、そもそも不偏標本分散の成り立ちは、標本分散が不偏性を持つように改良した推定量であることを理解できたと思います。

　しかし証明を知らずに結果だけを眺めてしまうと、まるで両者の違いは分母の値1個分の変化しかわかりません。数学科くらいしかここまで深入りするようなもの好きはいないのかもしれませんが、私はこのように理解を深めていくのが、たまらなく好きです。

※才能はありませんが(。´･ω･)

　こちらの証明は本によってはもっとエレガントに記載されているものもありますが、できるだけ行間を読まずに理解していただけることを目的として記載しました。どなたかの理解の一助になると幸いです。

 3.2.1.2.推定量の性質：有効性(efficiency)\thetaの2つの不偏推定量\hat{\theta_1}, \hat{\theta_2}に対して

V[\hat{\theta_1}] < V[\hat{\theta_2}]
が成り立つとき、\hat{\theta_1}は\hat{\theta_2}よりも有効である(efficient)という。

 3.2.1.3.推定量の性質：一致性(consistency)任意の\epsilon > 0に対して

\lim_{n \to \infty} P(|\hat{\theta_n} - \theta| > \epsilon) = 0
が成り立つとき、\hat{\theta_n}を\thetaの一致推定量(consistent estimator)という。
例）

大数の弱法則より、標本平均\overline{X}は母平均\muの一致推定量である。

 3.2.2.推定値推定量の具体的な値を推定値(estimate)という。

 3.2.2.1標準誤差推定量\hat{\theta}の標準偏差の推定値を\hat{\theta}の標準誤差(standard error of estimates)という。
!推定量と推定値の違い

例として標本平均を用います。つまり、

標本X_1, X_2, \cdots, X_nに対して標本平均\overline{X}は定義より

\begin{alignat*}{2}
\overline{X} &= t_1(X_1, X_2, \cdots, X_n) \\
             &= \cfrac{X_1 + X_2 + \cdots + X_n}{n}
\end{alignat*}
ですが、このとき\overline{X}は推定量です。ここで、それぞれの標本に対応する具体的なデータが与えられたとき、つまりX_1 = 1(とか), X_2 = 2(とか), \cdots, X_n = n（とか?）が標本として与えられた場合に、これを代入して計算される値（\overline{X} = 100とか？）のことを推定値といいます。また、「統計学入門」では以下のように記述されています。

われわれが現実のデータから計算するのは推定値であり、\\
これは推定量の取りうる値の一つが実現したものである。
（「統計学入門(基礎統計学Ⅰ)」.東京大学出版会.1991）より

 4.統計的推論標本から確率論に基づいて母集団についての結論を求めることを統計的推論(statistical inference)という。有意抽出は統計的推測はできないので注意。

 参考資料日本統計学会(編集).日本統計学会認定 統計検定準１級対応 統計学実践ワークブック.学術図書出版社.2020
東京大学教養学部統計学教室.統計学入門(基礎統計学Ⅰ).東京大学出版会.1991
竹村彰通.新装改訂版 現代数理統計学.学術図書出版.2020
小寺 平治.新統計入門.裳華房.1996
稲垣 宣生, 山根 芳知, 吉田 光雄.統計学入門.裳華房.1992
長瀬道弘・芦野隆一.微分積分概説.サイエンス社.2007
加藤文元.チャート式シリーズ 大学教養 微分積分.数研出版.2024
小林 正弘, 田畑 耕治.確率と統計: 一から学ぶ数理統計学 (数学のかんどころ 39).共立出版.2021
\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}

ご協力のほどよろしくお願いします。
Discussion

ログインするとコメントできます
【統計検定準1級】前提知識：母集団と標本

はじめに

学習書籍について

参考書籍について

0.基礎用語の定義

1.全数調査（悉皆調査）

1.1.母集団

1.1.1.有限母集団

1.1.2.無限母集団

1.2.母集団分布

1.2.1.正規母集団

2.標本調査

2.1.標本

2.1.1.標本空間

2.2.標本抽出

2.2.1.復元抽出

2.2.2.非復元抽出

2.2.3.有意抽出

2.2.3.無作為抽出

3.特性値

3.1.母数（パラメータ）

母平均 $\mu$

母分散 $\sigma^2$

3.1.1.推定

3.1.2.母数空間

3.2.統計量

標本平均 $\overline{X}$

標本分散 $S^2$

3.2.1.推定量

3.2.1.1.推定量の性質：不偏性(unbiasedness)

不変標本分布

3.2.1.2.推定量の性質：有効性(efficiency)

3.2.1.3.推定量の性質：一致性(consistency)

3.2.2.推定値

3.2.2.1標準誤差

4.統計的推論

参考資料

Discussion