👋

n-1とnの違い - 不遍分散と標本分散

に公開

目的

以前、なぜ不偏分散はn-1で割られていて、標本分散はnで割られているのか?というブログを拝見した。先日から数理統計に関する本を読み始めて、筆者もその点が気になったので式を展開することによって理解を図ることが目的である。無論、筆者自身の勉強の意味合いが大きい。

https://zenn.dev/dozenkomeda/articles/e7905972aadb73

問題設定

まず、大前提として、母集団全員に関する何かしらの統計調査を行うことはしばしば難しいというのがある。よく聞くものだと、内閣支持率やNHK受信料などかもしれない。この場合の母集団は日本国民全員ということになるが、日本国民全員を対象に調査を実施するのは現実的ではない(筆者も答えたことがない)。そこで、母集団から標本を抽出することを考える。
ここで、ランダムにn個のデータx_1,...,x_nを標本として抽出するとする。次に、母集団を平均\muで分散が\sigma^2の確率分布であると想定する。なお、抽出されたデータはその確率分布に従う確率変数(X_1,...,X_n)の実現値である(サイコロなどで、実際に出得る出目の数(まだふっていない)が1~6であったときに、実際の出目の数値がデータ、に相当する認識)。
母集団の平均と分散を、標本X_1,...,X_nに基づいて推定する場合、以下のように表せる。
\overline{X} = \frac{1}{n}\displaystyle\sum_{i=1}^n X_i, S^2 = \frac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2
これらをそれぞれ、標本平均と標本分散と呼ぶ。さらに、母平均に対して標本平均がどの程度母集団と一致しているかを計るために、標本平均を確率変数として確率分布を求めることを考える。標本平均の平均と分散は、以下の式で表せる。この式が表すことは、「標本平均と母平均の誤差は、nが大きくなると近づく」ということである。言ってみれば、nが大きくなるとだんだんと母集団に近づくので、母集団の平均とその値が近づくのは直感通りである。
E[\overline{X}] = \frac{1}{n}\displaystyle\sum_{i=1}^n E[X_i] = \frac{1}{n}\displaystyle\sum_{i=1}^n \mu = \mu
Var(\overline{X}) = \frac{1}{n^2}\displaystyle\sum_{i=1}^n Var(X_i) = \frac{\sigma^2}{n}

標本分散の期待値

他方、標本分散の期待値を求めてみる。これがこの今回の問題であった。
ここで、X_i-\overline{X}は、
X_i-\overline{X} = (X_i-\mu) - (\overline{X}-\mu)
である。両辺を二乗して1からnまでの和をとって、
\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 = \displaystyle\sum_{i=1}^n(X_i-\mu)^2 -\displaystyle\sum_{i=1}^n(\overline{X}-\mu)^2
\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 = \displaystyle\sum_{i=1}^n(X_i-\mu)^2 -n(\overline{X}-\mu)^2

さらに両辺に期待値をとって、
E[\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2] = E[\displaystyle\sum_{i=1}^n(X_i-\mu)^2] -nE[(\overline{X}-\mu)^2]
右辺第一項はn\sigma^2, 右辺第二項は標本平均の分散\sigma^2/nに相当する。

これらで表し直すと、
E[\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2] = n\sigma^2-n(\sigma^2/n) = (n-1)\sigma^2
分散は\frac{1}{n}E[\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2]であったので、両辺nで割って、
E[S^2] = \frac{n-1}{n}\sigma^2
となって、標本分散の期待値と母分散とでは値が異なる(標本分散の方が\frac{n-1}{n}だけ小さい)。

これは、E[\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2]nで割ったことに起因する。したがって(n-1)で割るようにすれば、期待値が母分散と一致する分散が得られる。これを不偏分散
V = \frac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2
と呼ぶ。確かに、直感的にはランダムにサンプリングした標本の平均は、母平均よりは元の標本データに全体的に近い値をとるはずなので標本分散が母分散を小さく見積もるのもまた、イメージはできる。式的には、(\overline{X}-\mu)の項が効いているのだろう、と考察できる。サンプリングした標本の平均が完全に一致していればそこからの散らばり(=分散)も一致するが、実際には少しずれているのでそうはならない。その差が、\frac{n-1}{n}として標本分散に表れているのだと推測できる。

Discussion