どの統計的モデルを選択すべきかの基準として、AIC(赤池情報量基準)があります。本稿では、AIC 導出の概略を紹介します。
AIC の定義
AIC=-2(最大対数尤度)+2(パラメーターの数)
AIC では、この値が小さいほど良いモデルと評価されます。気持ちとしては、最大対数尤度を最大化しながらパラメーター数によるペナルティを最小化したいことが分かります。
なぜ AIC が必要なのか
簡単な例として、データの多項式近似を考えます。多項式なのであらかじめ次数を決めてから最小二乗法により各係数の値を定めます。次数が高ければテストデータへの適合度は上がりますが、汎化性能が落ちます。テストデータへの適合度を確保しつつ、汎化性能が高いモデルを選択したい(そのように次数を決定したい)ことが AIC 導入のモチベーションとなります。
平均情報量(エントロピー)
前提知識として必要なので紹介します。情報源全体(全事象)の情報量Hは平均情報量と呼ばれ、以下で定義されます。
H=-\sum_{i=1}^{N}p_i\log_2 p_i
定義から明らかですが、Hはp_iの一つが1で他が0のとき0となり、それ以外では正の値となります。根元事象の総数をNとすると、p_1,p_2,\cdots,p_N=\frac{1}{N}でHは最大値\log_2 Nをとります。p_iの一つが1だと他のiについてはp_i=0(=冗長な情報)となるため、平均情報量が0となるのも理解できます。
一方、連続確率分布の平均情報量は
H=-\int_{-\infty}^{\infty}f(x)\ln f(x)dx
で定義されます。
交差エントロピー
上述した連続確率分布のエントロピーは、確率変数xがf(x)に従って分布するときの-\ln f(x)の平均値です。確率変数xがg(x)で分布するときの-\ln f(x)の平均値は
H_{gf}=-\int_{-\infty}^{\infty}g(x)\ln f(x)dx
で与えられますが、このH_{gf}はgとfの交差エントロピーと呼ばれます。gのエントロピーをH_gとすると、H_g\leq H_{gf}であることが証明されています(らしい)。
カルバック・ライブラー情報量
一方を真の確率分布g(x)、もう一方を評価したい確率分布f(x)とします。g(x)とf(x)の近さを評価する尺度がカルバック・ライブラー情報量(KL情報量)であり、以下で定義されます。
D(g,f)=\int_{-\infty}^{\infty}g(x)\ln {\frac {g(x)}{f(x)}}dx
g(x)=f(x)のときD=0となり、それ以外ではD>0となります。KL情報量を書き直すと
D(g,f)=(gとfの交差エントロピー)-(gのエントロピー)
であることが分かります。
真の確率分布g(x)が既知であれば KL情報量によりf(x)の良し悪しを判断することができますが、現実にはg(x)は知り得ません。g(x)を知らずに、標本値だけでf(x)の良し悪しを測るのが AIC のねらいです。
平均対数尤度と最大対数尤度
いま、評価したいのは確率分布f(x)であり、KL情報量の定義
\begin{aligned}
D(g,f) &= (gとfの交差エントロピー)-(gのエントロピー)\\
&= \int_{-\infty}^{\infty}g(x) \ln g(x)-\int_{-\infty}^{\infty}g(x) \ln f(x)
\end{aligned}
におけるgのエントロピーは相殺されます。よって、D(g,f)を最小化するためには、gとfの交差エントロピー-\int_{-\infty}^{\infty}g(x) \ln f(x)を最小化すれば十分であることに留意してください。
ここで以下2つの式を定義します。
\begin{aligned}
la(\theta) &= n\int_{-\infty}^{\infty}\ln {f(x|\theta)}g(x)dx\\
l(\theta) &= \sum_{i=1}^{n}\ln f(x_i|\theta)
\end{aligned}
パラメーター\thetaの最尤推定値を\hat{\theta}として上記式に代入すると、
\begin{align}
la(\hat{\theta}) &= n\int_{-\infty}^{\infty}\ln {f(x|\hat{\theta})}g(x)dx\\
l(\hat{\theta}) &= \sum_{i=1}^{n}\ln f(x_i|\hat{\theta})
\end{align}
となります。
大数の法則により、nが十分大きいとき(1)式はn\int_{-\infty}^{\infty}\ln {f(x|\theta_0)}g(x)dxに確率収束します(\theta_0はパラメーターの真値)。これはgとfの交差エントロピーの-n倍なので、(1)式の値が分かればモデルの評価が可能となります。便宜上、(1)式を平均対数尤度と呼びます。(2)式は最大対数尤度です。
求めたい値は平均対数尤度ですが、平均対数尤度はg(x)を含むため計算することができません。一方、最大対数尤度は標本値とモデルから計算できます。
AIC
平均対数尤度と最大対数尤度の差を評価したのが AIC の本丸です。筆者も分かっていないため本稿では証明略ですが、驚くべきことに
最大対数尤度 - 平均対数尤度 \approx パラメーター数
が成り立ちます。すなわち
平均対数尤度 \approx 最大対数尤度 - パラメーター数
であり、右辺の-2倍が AIC の定義となっています。
まとめ
KL情報量が最小となるようなモデルを選択したい
→ 交差エントロピーを最小化したい
→ 平均対数尤度を最大化したい
→ (最大対数尤度 - パラメーター数)を最大化したい
→ AIC を最小化したい
となります。
本稿は電通大の唐沢先生の技術レポートを参考にしています。本稿の内容についてより詳しく知りたい方は、唐沢先生のレポートを参照ください。
Discussion