✅
情報理論:エントロピーとダイバージェンス
はじめに
概要
- シラバス:E資格2024#2
キーワード
条件付きエントロピー, 結合エントロピー, クロスエントロピー,
交差エントロピー, KLダイバージェンス, JSダイバージェンス
学習内容
条件付きエントロピー
- ある変数Yが与えられたときに、別の変数Xの不確実性(エントロピー)を表します
- YがXを完全に決定:H(X|Y)=0(不確実性0)
- Yを知ってもXは予測できない:H(X|Y)=H(X)(情報は得られていない)
結合エントロピー
- 2つ以上の確率変数が同時に取る値の不確実性の総量を表します
- 単独のエントロピーが1つの変数の不確実性を測るのに対して、結合エントロピーは「同時に観測される全体の不確実性」を評価します
- XだけでなくYも含めた全体の不確実さを測ります
- 2つの変数が独立:H(X,Y)=H(X)+H(Y)
- 2つの変数が依存している場合:H(X,Y)<H(X)+H(Y)
交差エントロピー
- クロスエントロピーとも呼ばれます
- ある「真の確率分布P」と「予測した確率分布Q」の間の差(不確実性)を測る指標です
- 値が小さいほど予測が正確です
- P=Qのときに最小(=エントロピーに一致)
- X:クラスの集合
KLダイバージェンス
- 相対エントロピーとも呼ばれます
- ある分布Qと真の分布Pがどれだけ事なぅている化を示す指標です
-
は非負の値となりますD_{\text{KL}}
出典:
yusuke_ujitoko, KL divergenceとJS divergenceの可視化(2017), https://yusuke-ujitoko.hatenablog.com/entry/2017/05/07/200022
JSダイバージェンス
- KLダイバージェンスと同様に、分布間の差異を計算します
- KLダイバージェンスは対称性を持たないため、距離として扱えません
-
とD_{\text{KL}}(P \parallel Q) のどちらを使うかにD_{\text{KL}}(Q \parallel P)
よって結果が変わります - KLダイバージェンスを対称化、平滑化します
Discussion