Open1

十分統計量

redtearedtea

参考文献

十分統計量のモチベーション(データを縮約したい)

確率分布f(x|\theta)からランダムサンプル X_1, X_2, \ldots, X_nが得られたとき、データ全体を覚えておくよりも、標本平均、標本分散、中央値、最大値、四分位統計量などで代用できる方が便利です。覚える量が少なければメモリにも優しいし、一件一件のデータを見るよりも分布の形状を理解しやすくもなります。

データを縮約するときに大切なことは、母集団の未知母数に対して、縮約された統計量も、全データを持っているときと同程度の情報を持っていることです。直感的な話をしますと、くじの当たり外れに関するベルヌーイ分布のデータ X_1, X_2, \ldots, X_n が得られたとき、何回当たりであったかさえ覚えておけば、当たる確率の母数\thetaに対して各々のデータを覚えているときと同等の情報を持っていることになります。これが十分統計量の考え方です。

十分"統計量"

一致推定量、不偏推定量、などが統計の教科書にはセットで出てきますが、推定量ではなく、統計量であることに注意です。

  • 推定量: 標本X_1, X_2, \ldots, X_nから未知母数を推定する間数(母数ために標本から求めた統計量を一般的に推定量という)
  • 統計量: 標本X_1, X_2, \ldots, X_nに基づいた間数で母数を含んでいないもの(標本を要約し、母集団の母数のいろいろな推測に使われるもの)

十分統計量の定義と性質

定義

統計量 T(X) がパラメータ \theta に関して十分統計量 (sufficient statistics) とは、 T(x)=t を満たす xt に対して、T(X) = t を与えたときの X=x の条件付き確率 P(X=x | T(X)=t)\thetaに依存しないことをいう。

性質

同時確率は、P_\theta(X=x) = P_\theta(X=x, T(X)=t) = P(X=x|T(X)=t)P_\theta(T(X)=t) と表され、これはXの確率分布が持っている\thetaに関する情報と、T(X)の確率分布が持っている情報が同等であることを意味しています(P_\theta(X=x|T(X)=t;\theta) = P(X=x|T(X)=t))。

具体例

ベルヌーイ分布

X_1, X_2, \ldots, X_n, \text{i.i.d.} \sim Ber(\theta)とする(ベルヌーイ分布)。
確率\thetaで当たり、確率1-\thetaでハズれのくじ引き(復元抽出[1]ですよ!)をn回やります。

このようなデータが得られる確率P_\theta(X=x)は、単に当たりが出た回数\thetaをかけて、ハズれた回数1-\thetaをかけることになるので、以下の通りです。

P_\theta(X=x) = \Pi_{i=i}^{n} P_\theta(X_i=x_i) = \theta^{\sum_{i=1}^{n}x_i} (1-\theta)^{n-{\sum_{i=1}^{n}x_i}}

ここで、統計量T(X)=\sum_{i=1}^{n}x_iを考えると、これは二項分布 bin(n, \theta)であるから、

P_\theta(T(X)=t) = _nC_t \theta^t (1-\theta)^{n-t}

となる。よって、T(x)=tを与えたときのX=xの条件付き確率は、ベイズの定理から、

P_\theta(X=x|T(X)=t) = \frac{P_\theta(X=x,T(X)=t)}{P_\theta(T(X)=t)}

となります。ここで、右辺の分子は単にベルヌーイ分布から独立に得られる同時分布なので、確率の積として表すことができます。また、右辺の分母は当たりが出る回数の確率(二項分布)なので、以下のように計算を進めます。

\frac{P_\theta(X=x,T(X)=t)}{P_\theta(T(X)=t)} = \frac{\theta^t (1-\theta)^{n-t}}{_nC_t \theta^t (1-\theta)^{n-t}} = \frac{1}{_nC_t}

よって、最終的に\frac{1}{_nC_t}となり、これは\thetaに依存しておらず、T(X)が十分統計量であることが確認できます。

因子分解定理(factorization theorem)

一般的に、条件付き確率分布の計算は難しいことが多く、十分統計量であるかどうかの判定には以下の 因子分解定理を用いることが多いようです。

T(X)\thetaの十分統計量であるための必要十分条件は、X=(X_1, X_2, \ldots, X_n)の同時確率関数もしくは同時確率密度関数f(x_1, \ldots, x_n|\theta)\thetaに依存する部分とそうでない部分に分解でき、\thetaに依存する部分はT(\cdot)を通してのみxに依存する。すなわち、

f(x_1, \ldots, x_n|\theta) = h(x)g(T(x)|\theta)

と表されること。

この定理の直感的理解は、同時密度関数(尤度関数)を、2つの部分に分けています。

  • パラメータと統計量に依存する部分 (g(T(x)|\theta))
  • データのみに依存する部分 (h(x))

分解した後、パラメータに関するすべての情報が統計量に含まれていれば、その統計量はパラメータに関して十分な情報を持っていることになるので、これは十分統計量です。データのみに依存する部分h(x)は、いわばパラメータを推定する上では不要な情報と言えるでしょう。

以下、実際に因子分解定理を用いて十分統計量であることを示してみます。

正規分布の例

X_1, X_2, \ldots, X_n, \text{i.i.d.} \sim N(\mu, \sigma)とします(正規分布)。

T(X) = (T(X)_1, T(X)_2) = \left(\sum_{i=1}^n x_i, \sum_{i=1}^n x_i^2\right) が正規分布の十分統計量であることを示します。それぞれ、平均と分散に相当する情報です。
観測データの同時確率関数は、

f(x_1, x_2, \dots, x_n \mid \mu, \sigma^2) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2\right)

ここで、\sum_{i=1}^n (x_i-\mu)^2 は次のように展開できます。

\sum_{i=1}^n (x_i - \mu)^2 = \sum_{i=1}^n x_i^2 - 2\mu \sum_{i=1}^n x_i + n\mu^2

これを上の式に代入し、整理すると、

f(x_1, x_2, \dots, x_n \mid \mu, \sigma^2) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{n}{2\sigma^2} \mu^2 + \frac{\mu}{\sigma^2} \sum_{i=1}^n x_i - \frac{1}{2\sigma^2} \sum_{i=1}^n x_i^2\right) \\ = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{n}{2\sigma^2} \mu^2 + \frac{\mu}{\sigma^2} T(X)_1 - \frac{1}{2\sigma^2} T(X)_2 \right)

この形式で、\mu\sigma^2 に依存する項を抽出すると、

g(T_1, T_2; \mu, \sigma^2)= \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{n}{2\sigma^2} \mu^2 + \frac{\mu}{\sigma^2} T(X)_1 - \frac{1}{2\sigma^2} T(X)_2 \right) \\ h(x_1, x_2, ..., x_n)=1

に分けられ、T(X) = \left(\sum_{i=1}^n x_i, \sum_{i=1}^n x_i^2\right) が十分統計量であることがわかります。

ポアソン分布の例

X_1, X_2, \ldots, X_n, \text{i.i.d.} \sim Po(\lambda)とします(ポアソン分布)。
単に時間あたりに平均\lambda回起きる現象を独立にn期間分観測し、起きた合計回数(T(X)=\sum_{i=1}^{n}x_i)を考えます。このようなデータxが得られる確率は、

P_\lambda(X=x) = \Pi_{i=i}^{n} P_\lambda(X_i=x_i) = \Pi_{i=i}^{n} \frac{\lambda^{x_i}}{x_i!}e^{-\lambda} \\ \lambda^{\sum_{i=1}^{n}x_i}e^{-n \lambda} \Pi_{i=i}^{n} \frac{1}{x_i!} \\ = \lambda^{T(X)} e^{-n \lambda} \Pi_{i=i}^{n} \frac{1}{x_i!} \\ = g_{\lambda}(t;\lambda)h(x)

ここで、g_{\lambda}(t;\lambda) = \lambda^{T(X)} e^{-n \lambda}h(x)=\Pi_{i=i}^{n} \frac{1}{x_i!}としています。

脚注
  1. とったくじは箱に戻す ↩︎