🤖

フィッシャー情報行列が半正定値であることの証明

2024/03/28に公開

math

統計学

情報幾何

tech

はじめに

メモ用としてここに残しているのと記事を書くのが初めてなので至らない部分が多いと思います...
(追記：2024/5/20　基底について更新)

フィッシャー情報行列の定義

$\bm{\theta}$ を $n$ 次元パラメータ $\bm{\theta} = (\theta_1, \theta_2, \ldots , \theta_n)$ とし、 $X$ を確率密度関数 $p(x;\bm{\theta})$ の確率変数とします

$\theta_i$ での偏微分を

\partial_i = \frac{\partial}{\partial\theta_i} \quad (i \in \{ 1,2,\ldots, n\} )

として表記します

このとき $n \times n$ 正方行列であるフィッシャー情報行列の $(i,j)$ 成分 $g_{ij}$ は

g_{ij} = E_\theta[(\partial_i\ln p(X;\bm{\theta}))(\partial_j\ln p(X;\bm{\theta}))]

E_\theta[(\partial_i\ln p(X;\bm{\theta}))(\partial_j\ln p(X;\bm{\theta}))]=\int_{-\infty}^{\infty} (\partial_i\ln p(x;\bm{\theta}))(\partial_j\ln p(x;\bm{\theta}))p(x;\bm{\theta})dx

で与えられます

$\bm{s}$ を $n \times 1$ の縦ベクトルとすると任意の $\bm{s}$ について $\bm{s}^t G \bm{s} \geqq 0$ が成り立てば $G$ が半正定値であることがいえます！

内積について

ここで

\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \}

を基底とする

\mathbb{R}

上のベクトル空間

V

を考えます。

ほんとに基底なの？って方へ

実際はどちらでも支障はないので興味のある方だけ見てください

上記では基底をとるといいましたが、それは正確ではありません。ちゃんというと $\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \}$ から生成した $\mathbb{R}$ 上のベクトル空間 $V$ を考えています。つまり順序が逆なわけです。ベクトル空間が最初からあるわけでなく、 $\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \}$ からベクトル空間 $V$ を作ってます。
ここで改めて基底を考えると、ベクトル空間 $V$ は生成された $V$ の任意の元は生成元の線形結合で表すことができます。一方で一次独立であることは担保されていません。この問題は実に簡単に解消できて、一次独立となるまで $\{\partial_1\ln p(X;\bm{\theta}), \partial_2\ln p(X;\bm{\theta}), \ldots, \partial_n\ln p(X;\bm{\theta}) \}$ から元を引っこ抜いたものを基底とすればいいのです。

ここで $V$ 上の内積 $\langle \cdot , \cdot \rangle$ を

\langle f , g \rangle=\int_{-\infty}^{\infty}f(x;\bm{\theta})g(x;\bm{\theta})p(x;\bm{\theta})dx \quad (f,g \in V)

として定義します

以下は $\langle \cdot , \cdot \rangle$ が $V$ 上の内積になっていることを示しています。
ただし非退化性は内積の定義に含めないものとします。

証明

内積は次の3つの定義からなります
正定値性 : $\langle f , f \rangle \geqq 0$
対称性 : $\langle f , g \rangle = \langle g , f \rangle$
線形性 : $\langle af+bg , h \rangle = a\langle f , h \rangle + b\langle g , h \rangle$

ただし　 $a,b \in \mathbb{R}　\quad f,g,h \in V$

[証明]
・正定値性

\langle f , f \rangle =\int_{-\infty}^{\infty}f(x;\bm{\theta})^2p(x;\bm{\theta})dx \geqq 0

被積分関数が必ず非負であるので

0

以上であることがわかります。
・対称性

\int_{-\infty}^{\infty}f(x;\bm{\theta})g(x;\bm{\theta})p(x;\bm{\theta})dx = \int_{-\infty}^{\infty}g(x;\bm{\theta})f(x;\bm{\theta})p(x;\bm{\theta})dx

これも明らかですね
・線形性

これは積分の線形性から直ちに言えますね

フィッシャー情報行列は内積で表せる

フィッシャー情報行列 $G$ の $(i,j)$ 成分 $g_{ij}$ は先ほど定義した内積を使うことで

\begin{aligned} g_{ij} &= \int_{-\infty}^{\infty} (\partial_i\ln p(x;\bm{\theta}))(\partial_j\ln p(x;\bm{\theta}))p(x;\bm{\theta})dx\\ &=\langle \partial_i\ln p(x;\bm{\theta}),\partial_j\ln p(x;\bm{\theta}) \rangle \end{aligned}

と書くことができます。これでもうほぼ証明完了です！！！

$G$ が半正定値であることを言いたいのならば $\bm{s}$ を $n \times 1$ の縦ベクトルとしたときに任意の $\bm{s}$ について $\bm{s}^t G \bm{s} \geqq 0$ が言えればいいのでした。

$\bm{s}^t = [s_1,s_2, \ldots, s_n]$ とします。

\begin{aligned} \bm{s}^t G \bm{s} &=\sum_{i,j = 1}^n g_{ij}s_is_j\\ &=\sum_{i,j = 1}^n s_is_j\langle \partial_i\ln p(x;\bm{\theta}), \partial_j\ln p(x;\bm{\theta}) \rangle\\ &=\sum_{i,j = 1}^n\langle s_i \partial_i\ln p(x;\bm{\theta}),s_j \partial_j\ln p(x;\bm{\theta}) \rangle\\ &= \langle \sum_{i=1}^n s_i \partial_i\ln p(x;\bm{\theta}),\sum_{j=1}^n s_j \partial_j\ln p(x;\bm{\theta}) \rangle\\ &\geqq 0 \end{aligned}

三個目の等号で線形性を使い、最後の内積の式に着目すると引数がどちらも和をとる添え字が違うだけで同じものになることが分かります。よって内積の正定値性から無事示すことができました！離散型の確率分布の場合でも同じように示すことができます。

ここまで見て頂きありがとうございました
ではでは～＾＾

はじめに

フィッシャー情報行列の定義

内積について

フィッシャー情報行列は内積で表せる

Discussion