はじめに
ここではいつも分からなくなる、分散の推定について少しメモしておきます。
分散の推定するとき
-
n で割るのか、n-1で割るのか、
- 検定で関係する分布の自由度n-1だけど何故?
とか自分できちんと説明できたら良いのですが、できるかな。後者はまだ用意できていないのですが、メモは書いておきます。
分散の不偏推定量
独立に同一の分布に従う確率変数がn個あり、X_1,\cdots,X_n と置くことにします。平均と分散は
E[X_i] = \mu \quad V[X_i] = E[(X_i-\mu)^2] = \sigma^2
であるとします。今回の話では正規分布とかは仮定していないのでご注意を。
平均の推定量
平均値
\bar{X}=\frac{X_1\cdots + X_n}{n}
は、平均 \mu の推定量 \hat{\mu}(X_1,\cdots,X_n)です。標本の平均なので、標本平均と言うようです。
これまでいろいろな分布の場合で最尤推定値を考えてきましたが、特に分布の形を仮定しなくても期待値が平均になることが確認できます。
E[\bar{X}] = \frac{E[X_1]+\cdots + E[X_n]}{n} = {\mu}
と確認できます。つまり、標本分散は不偏推定量です。
では分散は?
標本分散
標本から分散を計算します。平均は標本平均を使うしかないので、
\frac{(X_1-\bar{X})^2 + \cdots + (X_n - \bar{X})^2}{n}
として標本分散を計算することができます。ここで標本平均も標本から計算しているので、X_1 などが含まれていることに注意しましょう。
標本平均からのずれと、真の平均からのずれは違います。評価してみましょう。
\sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n \left((X_i - \mu)^2 + (\mu - \bar{X})^2\right) \\
= \sum_{i=1}^n (X_i - \mu)^2 - n (\mu - \bar{X})^2
となります。導出には、 \sum_{i=1}^n(X_i - \mu) = n(\bar{X} - \mu) であることを使っています。標本分散(標本平均からのずれ)は、真の分散(真の平均からのずれ)よりも小さくなっていることを示しています。極端な例を考えれば、1つしか標本がないとき、1つの観測値を平均の推定値にはできますが、ばらつきは測れず0ということになります。実際にはばらつきが0ではないのに0としていしまうので、小さくなっていることが分かると思います。
で、これの期待値を計算してみましょう。
E[\sum_{i=1}^n (X_i - \bar{X})^2] = E[\sum_{i=1}^n (X_i - \mu)^2] - n \cdot E[(\mu - \bar{X})^2] \
= n\sigma^2 - n \frac{\sigma^2}{n} = (n-1) \sigma^2
落ち着いて考えれば分かりますが、
E[(\bar{X}-\mu)^2] = E[(\frac{(X_1-\mu) + \cdots + (X_n-\mu)}{n})^2]=\frac{1}{n^2} \sum_{i=1}^n E[(X_i-\mu)^2] = \frac{\sigma^2}{n}
という結果を使っています。
というわけで、
s^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2
が分散 \sigma^2 の不偏推定量ということになります。期待値をとると分散 \sigma^2 になる、という意味です。
分散推定量が従う分布: カイ二乗分布
次に、推定量の検定を行いましょう。推定量として得た値(推定値)が稀にしか起きないのか、妥当なものなのか、確かめようということです。
平均の場合
仮定を一つ入れます。各X_iは正規分布 N(\mu,\sigma^22) に従うとします。このとき、標本平均の平均と分散は既に求めていて分かりますが、
\bar{X} \sim N(\mu, \frac{\sigma^2}{n})
で正規分布に従います。なので、正規化すると平均0、分散1の正規分布に従います。
\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \sim N(0,1)
なので、実際に
Z = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}
の値を見て、95%信頼区間に収まっているか(z=1.96)を調べたりします。
偏差平方和
で、分散の場合はどうかというと、結果はシンプルですが導出は困難な(涙)結果があります。
n個の正規分布に従う確率変数 Z_i\sim N(0,1)があるとき、その二乗和はchi square分布に従います。
Z_1^2 + \cdots + Z_n^2 \sim \chi(n)
そこで、できたら偏差平方和
T=\sum_{i=1}^n (X_i - \bar{X})^2
も何か変換してカイ二乗分布で計算できるのかな、というと、できます。ずばり、
\frac{T}{\sigma^2} \sim \chi(n-1)
になります。自由度 n-1 です。統計では、\chi^2=\frac{T}{\sigma^2} を計算し、この値をカイ自乗分布のパーセント点と比べて、95%の信頼度に収まっているか、などと計算します。
さて、ここで先の「自由度\nu=n-1のカイ自乗分布に従う」ということについてですが、実は説明がシンプルにはできず困っています。
2変数の場合はシンプルにできます。N(0,1)に従う確率変数 x_1,x_2 が二つある時なら、
(x_1 - \frac{x_1+x_2}{2})^2 + (x_2 - \frac{x_1 + x_2}{2})^2 = (\frac{x_1 - x_2}{2})^2 + (\frac{-x_1 + x_2}{2})^2 = \frac{(x_1-x_2)^2}{2}
であり、z=\frac{x_1-x_2}{\sqrt{2}} とおくと z \sim N(0,1) であり、この偏差平方和はz^2 に等しいので自由度 \nu=1 のカイ二乗分布であることが分かります。でも n 個の変数だと、、、。下記を満たすf_jを誰か教えてください。。。対称式になるのかなー。これは完全な脱線だ。
\sum_{i=1}^n (x_i - \bar{x}) = \frac{\sum_{j=1}^{n-1} f_j(x_1,\cdots,x_n)}{n}
まとめ
とりあえず偏差平方和 T=\sum_{i=1}^n (X_i - \bar{X})^2 に関連して2つ書きました。
- 偏差平方和の期待値は (n-1)\sigma^2になります。言い換えると、分散の不偏推定量は \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X}) です。
- 正規分布に従う場合、偏差平方和を正規化した検定量 \frac{T}{\sigma^2}は自由度 \nu=n-1 のカイ二乗分布に従います
ここからもいろいろ話は発展していきます。とりあえずt検定かな、次は。
Discussion