はじめに
メモ用としてここに残しているのと記事を書くのが初めてなので至らない部分が多いと思います...
(追記:2024/5/20 基底について更新)
フィッシャー情報行列の定義
\bm{\theta} をn 次元パラメータ\bm{\theta} = (\theta_1, \theta_2, \ldots , \theta_n) とし、X を確率密度関数p(x;\bm{\theta}) の確率変数とします
\theta_i での偏微分を
\partial_i = \frac{\partial}{\partial\theta_i} \quad (i \in \{ 1,2,\ldots, n\} )
として表記します
このときn \times n 正方行列であるフィッシャー情報行列の(i,j) 成分g_{ij} は
g_{ij} = E_\theta[(\partial_i\ln p(X;\bm{\theta}))(\partial_j\ln p(X;\bm{\theta}))]
E_\theta[(\partial_i\ln p(X;\bm{\theta}))(\partial_j\ln p(X;\bm{\theta}))]=\int_{-\infty}^{\infty} (\partial_i\ln p(x;\bm{\theta}))(\partial_j\ln p(x;\bm{\theta}))p(x;\bm{\theta})dx
で与えられます
\bm{s} をn \times 1 の縦ベクトルとすると任意の\bm{s} について\bm{s}^t G \bm{s} \geqq 0 が成り立てばG が半正定値であることがいえます!
内積について
ここで
\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \}
を基底とする
\mathbb{R} 上のベクトル空間
V を考えます。
!
ほんとに基底なの?って方へ
実際はどちらでも支障はないので興味のある方だけ見てください
上記では基底をとるといいましたが、それは正確ではありません。ちゃんというと\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \} から生成した\mathbb{R} 上のベクトル空間V を考えています。つまり順序が逆なわけです。ベクトル空間が最初からあるわけでなく、\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \} からベクトル空間V を作ってます。
ここで改めて基底を考えると、ベクトル空間V は生成されたV の任意の元は生成元の線形結合で表すことができます。一方で一次独立であることは担保されていません。この問題は実に簡単に解消できて、一次独立となるまで\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \} から元を引っこ抜いたものを基底とすればいいのです。
ここでV 上の内積\langle \cdot , \cdot \rangle を
\langle f , g \rangle=\int_{-\infty}^{\infty}f(x;\bm{\theta})g(x;\bm{\theta})p(x;\bm{\theta})dx \quad (f,g \in V)
として定義します
以下は\langle \cdot , \cdot \rangle がV 上の内積になっていることを示しています。
ただし非退化性は内積の定義に含めないものとします。
証明
内積は次の3つの定義からなります
正定値性 : \langle f , f \rangle \geqq 0
対称性 : \langle f , g \rangle = \langle g , f \rangle
線形性 : \langle af+bg , h \rangle = a\langle f , h \rangle + b\langle g , h \rangle
ただし a,b \in \mathbb{R} \quad f,g,h \in V
[証明]
・正定値性
\langle f , f \rangle =\int_{-\infty}^{\infty}f(x;\bm{\theta})^2p(x;\bm{\theta})dx \geqq 0
被積分関数が必ず非負であるので
0 以上であることがわかります。
・対称性
\int_{-\infty}^{\infty}f(x;\bm{\theta})g(x;\bm{\theta})p(x;\bm{\theta})dx = \int_{-\infty}^{\infty}g(x;\bm{\theta})f(x;\bm{\theta})p(x;\bm{\theta})dx
これも明らかですね
・線形性
これは積分の線形性から直ちに言えますね
フィッシャー情報行列は内積で表せる
フィッシャー情報行列G の(i,j) 成分g_{ij} は先ほど定義した内積を使うことで
\begin{aligned}
g_{ij} &= \int_{-\infty}^{\infty} (\partial_i\ln p(x;\bm{\theta}))(\partial_j\ln p(x;\bm{\theta}))p(x;\bm{\theta})dx\\
&=\langle \partial_i\ln p(x;\bm{\theta}),\partial_j\ln p(x;\bm{\theta}) \rangle
\end{aligned}
と書くことができます。これでもうほぼ証明完了です!!!
G が半正定値であることを言いたいのならば\bm{s} をn \times 1 の縦ベクトルとしたときに任意の\bm{s} について\bm{s}^t G \bm{s} \geqq 0 が言えればいいのでした。
\bm{s}^t = [s_1,s_2, \ldots, s_n] とします。
\begin{aligned}
\bm{s}^t G \bm{s} &=\sum_{i,j = 1}^n g_{ij}s_is_j\\
&=\sum_{i,j = 1}^n s_is_j\langle \partial_i\ln p(x;\bm{\theta}), \partial_j\ln p(x;\bm{\theta}) \rangle\\
&=\sum_{i,j = 1}^n\langle s_i \partial_i\ln p(x;\bm{\theta}),s_j \partial_j\ln p(x;\bm{\theta}) \rangle\\
&= \langle \sum_{i=1}^n s_i \partial_i\ln p(x;\bm{\theta}),\sum_{j=1}^n s_j \partial_j\ln p(x;\bm{\theta}) \rangle\\
&\geqq 0
\end{aligned}
三個目の等号で線形性を使い、最後の内積の式に着目すると引数がどちらも和をとる添え字が違うだけで同じものになることが分かります。よって内積の正定値性から無事示すことができました!離散型の確率分布の場合でも同じように示すことができます。
ここまで見て頂きありがとうございました
ではでは~^^
Discussion