🍣

AIC（赤池情報量基準）導出の概略

2022/04/06に公開

どの統計的モデルを選択すべきかの基準として、AIC（赤池情報量基準）があります。本稿では、AIC 導出の概略を紹介します。

AIC の定義

AIC=-2(最大対数尤度)+2(パラメーターの数)

AIC では、この値が小さいほど良いモデルと評価されます。気持ちとしては、最大対数尤度を最大化しながらパラメーター数によるペナルティを最小化したいことが分かります。

なぜ AIC が必要なのか

簡単な例として、データの多項式近似を考えます。多項式なのであらかじめ次数を決めてから最小二乗法により各係数の値を定めます。次数が高ければテストデータへの適合度は上がりますが、汎化性能が落ちます。テストデータへの適合度を確保しつつ、汎化性能が高いモデルを選択したい（そのように次数を決定したい）ことが AIC 導入のモチベーションとなります。

平均情報量（エントロピー）

前提知識として必要なので紹介します。情報源全体（全事象）の情報量 $H$ は平均情報量と呼ばれ、以下で定義されます。

H=-\sum_{i=1}^{N}p_i\log_2 p_i

定義から明らかですが、 $H$ は $p_i$ の一つが1で他が0のとき0となり、それ以外では正の値となります。根元事象の総数をNとすると、 $p_1,p_2,\cdots,p_N=\frac{1}{N}$ で $H$ は最大値 $\log_2 N$ をとります。 $p_i$ の一つが1だと他の $i$ については $p_i=0$ （＝冗長な情報）となるため、平均情報量が0となるのも理解できます。
一方、連続確率分布の平均情報量は

H=-\int_{-\infty}^{\infty}f(x)\ln f(x)dx

で定義されます。

交差エントロピー

上述した連続確率分布のエントロピーは、確率変数 $x$ が $f(x)$ に従って分布するときの $-\ln f(x)$ の平均値です。確率変数 $x$ が $g(x)$ で分布するときの $-\ln f(x)$ の平均値は

H_{gf}=-\int_{-\infty}^{\infty}g(x)\ln f(x)dx

で与えられますが、この $H_{gf}$ は $g$ と $f$ の交差エントロピーと呼ばれます。 $g$ のエントロピーを $H_g$ とすると、 $H_g\leq H_{gf}$ であることが証明されています（らしい）。

カルバック・ライブラー情報量

一方を真の確率分布 $g(x)$ 、もう一方を評価したい確率分布 $f(x)$ とします。 $g(x)$ と $f(x)$ の近さを評価する尺度がカルバック・ライブラー情報量（KL情報量）であり、以下で定義されます。

D(g,f)=\int_{-\infty}^{\infty}g(x)\ln {\frac {g(x)}{f(x)}}dx

$g(x)=f(x)$ のとき $D=0$ となり、それ以外では $D>0$ となります。KL情報量を書き直すと

D(g,f)=(gとfの交差エントロピー)-(gのエントロピー)

であることが分かります。
真の確率分布 $g(x)$ が既知であれば KL情報量により $f(x)$ の良し悪しを判断することができますが、現実には $g(x)$ は知り得ません。 $g(x)$ を知らずに、標本値だけで $f(x)$ の良し悪しを測るのが AIC のねらいです。

平均対数尤度と最大対数尤度

いま、評価したいのは確率分布 $f(x)$ であり、KL情報量の定義

\begin{aligned} D(g,f) &= (gとfの交差エントロピー)-(gのエントロピー)\\ &= \int_{-\infty}^{\infty}g(x) \ln g(x)-\int_{-\infty}^{\infty}g(x) \ln f(x) \end{aligned}

における $g$ のエントロピーは相殺されます。よって、 $D(g,f)$ を最小化するためには、 $g$ と $f$ の交差エントロピー $-\int_{-\infty}^{\infty}g(x) \ln f(x)$ を最小化すれば十分であることに留意してください。
ここで以下2つの式を定義します。

\begin{aligned} la(\theta) &= n\int_{-\infty}^{\infty}\ln {f(x|\theta)}g(x)dx\\ l(\theta) &= \sum_{i=1}^{n}\ln f(x_i|\theta) \end{aligned}

パラメーター $\theta$ の最尤推定値を $\hat{\theta}$ として上記式に代入すると、

\begin{align} la(\hat{\theta}) &= n\int_{-\infty}^{\infty}\ln {f(x|\hat{\theta})}g(x)dx\\ l(\hat{\theta}) &= \sum_{i=1}^{n}\ln f(x_i|\hat{\theta}) \end{align}

となります。
大数の法則により、 $n$ が十分大きいとき(1)式は $n\int_{-\infty}^{\infty}\ln {f(x|\theta_0)}g(x)dx$ に確率収束します（ $\theta_0$ はパラメーターの真値）。これは $g$ と $f$ の交差エントロピーの $-n$ 倍なので、(1)式の値が分かればモデルの評価が可能となります。便宜上、(1)式を平均対数尤度と呼びます。(2)式は最大対数尤度です。
求めたい値は平均対数尤度ですが、平均対数尤度は $g(x)$ を含むため計算することができません。一方、最大対数尤度は標本値とモデルから計算できます。

AIC

平均対数尤度と最大対数尤度の差を評価したのが AIC の本丸です。筆者も分かっていないため本稿では証明略ですが、驚くべきことに

最大対数尤度 - 平均対数尤度 \approx パラメーター数

が成り立ちます。すなわち

平均対数尤度 \approx 最大対数尤度 - パラメーター数

であり、右辺の-2倍が AIC の定義となっています。

まとめ

KL情報量が最小となるようなモデルを選択したい
→ 交差エントロピーを最小化したい
→ 平均対数尤度を最大化したい
→ (最大対数尤度 - パラメーター数)を最大化したい
→ AIC を最小化したい
となります。

本稿は電通大の唐沢先生の技術レポートを参考にしています。本稿の内容についてより詳しく知りたい方は、唐沢先生のレポートを参照ください。