📝

機械学習で用いられる情報理論についてまとめました

2023/08/25に公開

機械学習でよく用いられる以下の情報理論用語について、整理しました。
G検定・E資格を勉強している方の参考になればと思います。

情報量
エントロピー
交差エントロピー
KLダイバージェンス

1. 情報量

ある事象が起きた時にそれがどれぐらい起こりにくいかを表す指標です。
単純に自己情報量ともいいます。
特性として、起こりにくい＝事象が起きる確率が低いほど、情報量が大きくなります。

計算式

確率の逆数を対数でとります。
結果として、マイナスのついた確率の対数になります。

自己情報量　I(A) = \log \frac{1}{P(A)} =-\log P(A)

2. エントロピー

情報量の平均値・期待値のことです。

計算式

情報量の期待値をとりますので、確率×情報量の総和になります。
離散確率変数X=xとなる確率がp(x)の場合、確率変数Xのエントロピーは以下になります。
こちらもマイナスがつきます。

H(X) = \sum_{x} p(x) \log \frac{1}{p(x)} = - \sum_{x} p(x)\log p(x)

3. 交差エントロピー

これまでは1つの確率分布を取り扱ってきましたが、ここからは2つの確率分布を想定します。
交差エントロピーは、2つの確率分布がどれぐらい離れているかを表す指標です。
実務では、モデルが予測した正解の予測確率と、実際の確率との差を見るのに使います　交差エントロピーを小さくすることが目的になります。

計算式

真の確率分布をp(x)、モデルの確率分布をq(x)とした場合に、以下で表されます
二つの確率分布が近いほど、交差エントロピーは小さくなります

H(p, q ) = -\sum_{x} p(x) \log q(x)

グラフするとこのような感じになります。
負の対数関数のため、値が大きいほど、交差エントロピーは小さくなります。

例：
p = [1, 0, 0] q = [0.7, 0.2, 0.1]の交差エントロピーを求める

H(p, q ) = - 1 * \log 0.7 + 0 + 0 = 0.35

ベルヌーイ分布のときの交差エントロピー

負の対数尤度と同じになります。

H(p, q ) = - p(x) \log q(x) - (1-p(x))\log (1-q(x))

4. KL（カルバックライブラー）ダイバージェンス

2つの確率分布の近さを表現する基本的な量になります。
交差エントロピーよりも、より直感的にその近さを表してくれます。

計算式

D(p||q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}

実はKLダイバージェンスは、交差エントロピーから求めることができます。
pのエントロピーをH(p)、pとqの交差エントロピーをH(p,q）とすると以下の式が成り立ちます

H(p, q) = H(p) + D(p||q) \\

H(p,q)= -\sum_{x} p(x)\log p(x) +\sum_{x} p(x) \log \frac{p(x)}{q(x)} \\

H(p, q ) = -\sum_{x} p(x) \log q(x)

KLダイバージェンスの別の表記

q(x)を分子に持ってくると、KLダイバージェンスの符号はマイナスになるので注意！

D(p||q) = - \sum_{x} p(x) \log \frac{q(x)}{p(x)}

Discussion