不偏標本分散とは
標本の取り方によらず、標本集合から推定された母集団の統計量を不偏推定量と呼ぶ。
特に、ある標本から母分散を推定する際に用いる不偏統計量を不偏標本分散\hat{\sigma}^2と呼ぶ。
\begin{align}
\hat{\sigma}^2=\frac{1}{N-1}\Sigma_i(X_i-\bar{X})^2
\end{align}
この不偏標本分散の期待値は母分散\sigma^2となる。
なぜN-1なのか
標本分散s^2は一般に以下で表される。
\begin{align}
s^2 = \frac{1}{N}\Sigma_i(X_i-\bar{X})^2
\end{align}
(1), (2)の非共通部分をAとし、これらの期待値をとると(ただし \muは母平均)
\begin{align}
E[A\Sigma_i(X_i-\bar{X})^2] &= A\{E[\Sigma X_i^2]-2E[\Sigma X_i\bar{X}]+E[\Sigma \bar{X}^2]\}\notag\\
&= A\{\Sigma E[X_i^2] -2NE[\bar{X}^2]+NE[\bar{X}^2]\}\notag\\
&= A\{\Sigma(V[X_i]+E[X_i]^2) - N(V[\bar{X}]+E[\bar{X}]^2) \} \\
&= A\{N(\sigma^2+\mu^2)-\frac{1}{N}(V[\Sigma X_i])-N\mu^2\} \notag\\
&= A\{N\sigma^2-\frac{1}{N}N\sigma^2\} \notag\\
&= A(N-1)\sigma^2
\end{align}
となる(細かい変形は参考資料を参照ください)。
ここで、 A=\frac{1}{N-1}とすると (4)の右辺は \sigma^2となり、不偏標本分散の期待値が母分散と一致することから、不偏標本分散 \hat{\sigma}^2は不変推定量である。
また、 A=\frac{1}{N}とすると (4)の左辺は E[s^2]となり、標本分散の期待値が母分散の \frac{N-1}{N}倍となる。このことは不偏標本分散が標本分散の \frac{N}{N-1}倍となることを表しており、 (1)(2)の結果と一致する。
自由度との関係
この Aの分母は自由度と呼ばれ、t分布やカイ二乗分布にも登場する。
この自由度は自由に動かせる変数の数(例えば標本数)などと説明され、 N-1となる理由としては、変数が一つわからなくても (3)に含まれる標本平均を用いることで算出可能であるためと説明される。
が、この概念と分布形状の関係があまりしっくりこない。
一応、標本の偏差二乗和 S = \Sigma_i(x_i-\bar{X})^2 に対して,母平均による標本の偏差二乗和を考えることで、母分散が標本分散の期待値よりも大きくなることは計算できる。
\mu=\bar{X}+\epsilon とすると
\begin{align}
E[(X_i-\mu)^2] &= E[(X_i-\bar{X}+\epsilon)] \notag\\
&= E [(x_i-\bar{X})^2-2(X_i-\bar{X})\epsilon + \epsilon^2] \notag\\
&= NS + N\{-2\epsilon\Sigma_i(X_i-\bar{X})\} + E[\epsilon^2] \notag\\
&= S + E[\epsilon^2] > S\notag
\end{align}
この E[\epsilon^2]は (\mu-\bar{X})^2の期待値なので、これを母分散を解釈すると、以下のようになる(?)
\begin{align}
N\sigma^2 = S+\sigma^2 \notag\\
\sigma^2 = \frac{1}{N-1}S
\end{align}
これは正しい?(誰か助けてクレメンス)
参考
https://mathnyumon.com/unbiased-variance-proof/
https://www.momoyama-usagi.com/entry/math-stat-chidist1#google_vignette
https://www.yodosha.co.jp/smart-lab-life/statics_pitfalls/statics_pitfalls05.html
Discussion