十分統計量
参考文献
- 一般社団法人 日本統計学会, 日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック, 学術図書出版社, 2020.
- 久保川達也, 現代数理統計学の基礎, 共立出版株式会社, 2017.
十分統計量のモチベーション(データを縮約したい)
確率分布
データを縮約するときに大切なことは、母集団の未知母数に対して、縮約された統計量も、全データを持っているときと同程度の情報を持っていることです。直感的な話をしますと、くじの当たり外れに関するベルヌーイ分布のデータ
十分"統計量"
一致推定量、不偏推定量、などが統計の教科書にはセットで出てきますが、推定量ではなく、統計量であることに注意です。
- 推定量: 標本
から未知母数を推定する間数(母数ために標本から求めた統計量を一般的に推定量という)X_1, X_2, \ldots, X_n - 統計量: 標本
に基づいた間数で母数を含んでいないもの(標本を要約し、母集団の母数のいろいろな推測に使われるもの)X_1, X_2, \ldots, X_n
十分統計量の定義と性質
定義
統計量
性質
同時確率は、
具体例
ベルヌーイ分布
確率
このようなデータが得られる確率
ここで、統計量
となる。よって、
となります。ここで、右辺の分子は単にベルヌーイ分布から独立に得られる同時分布なので、確率の積として表すことができます。また、右辺の分母は当たりが出る回数の確率(二項分布)なので、以下のように計算を進めます。
よって、最終的に
因子分解定理(factorization theorem)
一般的に、条件付き確率分布の計算は難しいことが多く、十分統計量であるかどうかの判定には以下の 因子分解定理を用いることが多いようです。
が T(X) の十分統計量であるための必要十分条件は、 \theta の同時確率関数もしくは同時確率密度関数 X=(X_1, X_2, \ldots, X_n) が f(x_1, \ldots, x_n|\theta) に依存する部分とそうでない部分に分解でき、 \theta に依存する部分は \theta を通してのみ T(\cdot) に依存する。すなわち、 x
と表されること。
この定理の直感的理解は、同時密度関数(尤度関数)を、2つの部分に分けています。
- パラメータと統計量に依存する部分 (
)g(T(x)|\theta) - データのみに依存する部分 (
)h(x)
分解した後、パラメータに関するすべての情報が統計量に含まれていれば、その統計量はパラメータに関して十分な情報を持っていることになるので、これは十分統計量です。データのみに依存する部分
以下、実際に因子分解定理を用いて十分統計量であることを示してみます。
正規分布の例
観測データの同時確率関数は、
ここで、
これを上の式に代入し、整理すると、
この形式で、
に分けられ、
ポアソン分布の例
単に時間あたりに平均
ここで、
-
とったくじは箱に戻す ↩︎