🐷

一致性と不偏性①

2024/05/01に公開

3行まとめ

  1. 推定量は、標本から母数をズバリと一意に推定(点推定)するために使う、標本から得られる量のこと。
  2. 推定量に満たしてほしい性質として代表的なものが一致性と不偏性。
  3. その心は、たくさん実験or観測したら報われてほしいじゃん?という気持ちがあるから。

参考書籍

入門詐欺として有名な統計学入門を使って勉強しています。
https://amzn.to/4dmDECE
同著219ページ以降の内容を他の文献や他の開設サイト等をみながら自分なりに解釈したことを記載していきます。

点推定した値(=推定量)に期待したい4つの性質

  • 点推定は、得られた標本を使って、母数をズバリここだ!と言い当てる[1]ことです。
  • 標本をこねくり回して得られた、「多分母数はこれだと思います」という数値のことを推定量と言います。
  • この推定量は、一致性、不偏性、漸近近似性、有効性の4つを兼ね備えていると嬉しい、特に前半2つは満たしていないと不都合なことがあります。

というのが月並みな説明になるかと思います。

・・・

これを読んでも「なんだかふ〜んって感じ」という感想しか持てなかったんですよね。
結局、平均値はこれを全て満たしてます、分散は不偏性を満たさないから不偏分散を使いましょう、という話に帰結している感じで、そもそも平均と分散以外にこんなの議論になることあるんか?[2]とか。

ということで、それぞれのお気持ち的なところを整理したいと思います。

そもそも母数ってなんやねん

母数は、母集団の特徴を表す数量全般のことで、例えば

  • 母集団の平均値
  • 母集団の平均値まわりのばらつき
  • 2つの変数X,Yを持つ母集団のXYの関係(Y=\alpha+\beta X\alpha\beta)
  • ベルヌーイ試行の結果から構成される母集団の試行成功確率

などは全て母数。

一方、その母数を推定するために、得られた標本を使って計算して得られる数値のことを推定量という。
例えば、

  • 母集団の平均値を標本の平均値で推定するとしたら、標本平均は推定量
  • 2つの変数X,Yを持つ母集団のXYの関係をY=\alpha+\beta Xだと仮定して、線形標本の残差平方和を最小にするような\alpha\betaを使って推定するとしたら、これらの\alpha\betaは推定量(最小二乗推定量)

みたいな真面目なものから、

  • 母集団の平均を、サンプルサイズ100の標本の5番目の値を使って推定する、と決めたら、その5番目の値は推定量

みたいなトンデモな数値でも、それを使って母集団の何かしら(=母数)を推定するのであればみんな推定量。

母数に対して推定量は、「その母数を推定するための量ですよ〜」という気持ちを込めて、帽子 \hat{} を被せて表記することが多い。
例えば母平均\muの推定量は\hat{\mu}など。

一致性ってなんやねん

  • 定義
    • サンプルサイズを無限に増やした時、その推定量が母数に限りなく一致[3]すること。
  • お気持ち
    • めっちゃたくさんサンプルを集めることができたら、その推定値はほぼほぼ母数になるんちゃう?
      たくさんサンプル集めても母数に一致しなかったら困るやろ?

不偏性ってなんやねん

  • 定義
    • その推定値の期待値が母数に一致すること
  • お気持ち
    • 仮にたくさん調査or実験したら、たくさんの推定値が得られるやん?その平均値(=期待値)を取ったら、母数に一致するんちゃう?
      たくさん実験しても母数に一致しなかったら困るやろ?

この、推定値の期待値、みたいなやつ、ほんとキライ![4]

具体例

全20代日本人男性の身長の平均値\muと分散\sigma^2が知りたいので、ランダムに独立に[5]20代日本人男性をn人呼んできて身長(測定値X_i)を測りました!

E(X)=\mu
V(X)=\sigma^2

平均値\muの推定

  1. 標本の平均値を使います!
    \displaystyle \hat{\mu}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n} X_i
    そりゃnを無限大にしたらいつかは全数調査になって、母平均に一致するはず→一致性は満たす。[6]
    \displaystyle E(\hat{\mu})=\frac{1}{n}\sum_{i=1}^{n} E(X_i)=\frac{1}{n} n \mu =\muより不偏性も満たす
  2. 標本の5人目の値を使います!
    \displaystyle \hat{\mu}=X_5
    nをいくら大きくしたってたった一人の値しか推定に使わないから、永遠に\sigma^2のばらつきを持って得られちゃう(=収束しない)→一致性を満たさない
    \displaystyle E(\hat{\mu})=E(X_5)=\muより不偏性は満たす

分散\sigma^2の推定

  1. 標本分散を使います!
    \displaystyle \hat{\sigma^2}=\frac{1}{n} \sum_{i=1}^{n}(X-\bar{X})^2
  2. 不偏標本分散を使います!
    \displaystyle \hat{\sigma^2}=\frac{1}{n-1} \sum_{i=1}^{n}(X-\bar{X})^2

これはもう有名な話で、\sum_{i=1}^{n}(X-\bar{X})^2の期待値が(n-1)\sigma^2になるので、nで割った標本分散は不偏性が無く、n-1で割った標本不偏分散は不偏性がある[7]ということですね。

ちなみに一致性については、

  • n \to \inftyの時、\bar{X} \to \muであり標本分散は母分散に一致。
  • 無限大に発散する分母について、標本分散と比較して高々1しか差がない標本不偏分散も母分散に一致。

ということでどちらも一致性を満たします[6:1]

終わりに

長くなったので、各種証明と、pythonを使用した実験はまたの機会に譲りたいと思います。

以上、ご確認のほど、よろしくお願いいたします。

脚注
  1. これとは逆に、一定の幅(信頼区間)をもって推定することを区間推定という。 ↩︎

  2. 少なくとも最小二乗推定量とかで議論になることをすぐ後で知るのですが、何度も振り返らないとその重要さがよくわからなかった、というのが本音です。 ↩︎

  3. 収束の強弱によって2種類あるのですが、現時点で私自身そこまで踏み込んで学習できていないので割愛。 ↩︎

  4. 平均値の分散、とか、分散の分散、とか。 ↩︎

  5. 例えば縁故法でサンプリングしたりすると標本集団に偏りが生じ、その偏りを排除するにはうんたらかんたら、という統計的因果推論の話になる。そもそも例えば、「協力してくれたら謝礼をあげるので〜」みたいな集め方をすると、「謝礼に興味を示す」という介在変数が生じてしまう、などがあるので、ここでは対象を真にランダムに決め、強制的に拉致して身長を測ってリリースする、という現実的にはあり得ない設定とします。 ↩︎

  6. 厳密にはシェビチェフの不等式を使って証明 ↩︎ ↩︎

  7. 馬から落馬感満載の表現ですが、正しくは母分散の不偏推定量だから標本不遍分散という名前になっている、ですね。 ↩︎

GitHubで編集を提案

Discussion