🤖

フィッシャー情報行列が半正定値であることの証明

2024/03/28に公開

はじめに

メモ用としてここに残しているのと記事を書くのが初めてなので至らない部分が多いと思います...
(追記:2024/5/20 基底について更新)

フィッシャー情報行列の定義

\bm{\theta}n次元パラメータ\bm{\theta} = (\theta_1, \theta_2, \ldots , \theta_n)とし、Xを確率密度関数p(x;\bm{\theta})の確率変数とします

\theta_iでの偏微分を

\partial_i = \frac{\partial}{\partial\theta_i} \quad (i \in \{ 1,2,\ldots, n\} )

として表記します

このときn \times n正方行列であるフィッシャー情報行列の(i,j)成分g_{ij}

g_{ij} = E_\theta[(\partial_i\ln p(X;\bm{\theta}))(\partial_j\ln p(X;\bm{\theta}))]

E_\theta[(\partial_i\ln p(X;\bm{\theta}))(\partial_j\ln p(X;\bm{\theta}))]=\int_{-\infty}^{\infty} (\partial_i\ln p(x;\bm{\theta}))(\partial_j\ln p(x;\bm{\theta}))p(x;\bm{\theta})dx

で与えられます

\bm{s}n \times 1の縦ベクトルとすると任意の\bm{s}について\bm{s}^t G \bm{s} \geqq 0が成り立てばGが半正定値であることがいえます!

内積について

ここで

\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \}

を基底とする\mathbb{R}上のベクトル空間Vを考えます。

ここでV上の内積\langle \cdot , \cdot \rangle

\langle f , g \rangle=\int_{-\infty}^{\infty}f(x;\bm{\theta})g(x;\bm{\theta})p(x;\bm{\theta})dx \quad (f,g \in V)

として定義します

以下は\langle \cdot , \cdot \rangleV上の内積になっていることを示しています。
ただし非退化性は内積の定義に含めないものとします。

証明

内積は次の3つの定義からなります
正定値性 : \langle f , f \rangle \geqq 0
対称性 : \langle f , g \rangle = \langle g , f \rangle
線形性 : \langle af+bg , h \rangle = a\langle f , h \rangle + b\langle g , h \rangle

ただし a,b \in \mathbb{R} \quad f,g,h \in V

[証明]
・正定値性

\langle f , f \rangle =\int_{-\infty}^{\infty}f(x;\bm{\theta})^2p(x;\bm{\theta})dx \geqq 0

被積分関数が必ず非負であるので0以上であることがわかります。
・対称性
\int_{-\infty}^{\infty}f(x;\bm{\theta})g(x;\bm{\theta})p(x;\bm{\theta})dx = \int_{-\infty}^{\infty}g(x;\bm{\theta})f(x;\bm{\theta})p(x;\bm{\theta})dx

これも明らかですね
・線形性

これは積分の線形性から直ちに言えますね

フィッシャー情報行列は内積で表せる

フィッシャー情報行列G(i,j)成分g_{ij}は先ほど定義した内積を使うことで

\begin{aligned} g_{ij} &= \int_{-\infty}^{\infty} (\partial_i\ln p(x;\bm{\theta}))(\partial_j\ln p(x;\bm{\theta}))p(x;\bm{\theta})dx\\ &=\langle \partial_i\ln p(x;\bm{\theta}),\partial_j\ln p(x;\bm{\theta}) \rangle \end{aligned}

と書くことができます。これでもうほぼ証明完了です!!!

Gが半正定値であることを言いたいのならば\bm{s}n \times 1の縦ベクトルとしたときに任意の\bm{s}について\bm{s}^t G \bm{s} \geqq 0が言えればいいのでした。

\bm{s}^t = [s_1,s_2, \ldots, s_n]とします。

\begin{aligned} \bm{s}^t G \bm{s} &=\sum_{i,j = 1}^n g_{ij}s_is_j\\ &=\sum_{i,j = 1}^n s_is_j\langle \partial_i\ln p(x;\bm{\theta}), \partial_j\ln p(x;\bm{\theta}) \rangle\\ &=\sum_{i,j = 1}^n\langle s_i \partial_i\ln p(x;\bm{\theta}),s_j \partial_j\ln p(x;\bm{\theta}) \rangle\\ &= \langle \sum_{i=1}^n s_i \partial_i\ln p(x;\bm{\theta}),\sum_{j=1}^n s_j \partial_j\ln p(x;\bm{\theta}) \rangle\\ &\geqq 0 \end{aligned}

三個目の等号で線形性を使い、最後の内積の式に着目すると引数がどちらも和をとる添え字が違うだけで同じものになることが分かります。よって内積の正定値性から無事示すことができました!離散型の確率分布の場合でも同じように示すことができます。

ここまで見て頂きありがとうございました
ではでは~^^

Discussion