はじめに
日本ディープラーニング協会の Deep Learning 資格試験(E 資格)の受験に向けて、調べた内容をまとめていきます。
自己情報量
-
ある事象xの発生確率がP(x)である時の情報量のこと。
-
w(x):事象が起きた時、それがxである数みたいなもの。
-
発生確率が低い方(珍しい)が情報量が多い。
-
情報量は加法性がある。(2 つの事象が独立であれば、2 つの事象が同時に起こった時の情報量は、それぞれの情報量の和と等しくなる。)
-
対数の底がの底が2の時、単位はビット(bit)
-
対数ネイピアのeの時、単位は(nat)
\begin{aligned}
I(x) &= - \log {P(x)}
\end{aligned}
参考:自己情報量とは?分かりやすく解説します!
平均情報量(シャノンエントロピー)
予測できなさ、不確定さとも言える。
例)コイントスの場合、表ばかり出る、裏ばかり出るよりも表裏が大体同じくらい出る(次どっちでるか分からない)方がこのシャノンエントロピーは大きくなる。
- 離散確率変数Xにおいて、X=xとなる確率がP(x)のとき、確率変数Xのエントロピーは次の式となる。
\begin{aligned}
H(X) &= E(I(x)) \\[12px]
&= - E \log P(x) \\[12px]
&= - \sum _{} ^{} {P(x) \log P(x)}
\end{aligned}
参考:平均情報量とは?計算方法を分かりやすく解説!
\begin{aligned}
H(X) &= - \int_x {P(x) \log P(x)} dx
\end{aligned}
結合エントロピー
加法性がある時
- 「コインが表か裏か」を知ることで得られる平均情報量をH(A)、「サイコロの出た目」を知ることで得られる平均情報量をH(B)とする。
- 2つの情報には「共通している部分」がないため、加法性がある。
- コインとサイコロの結果は共通点がないため、2つの平均情報量を足すと、2つの情報を同時に知ったときに得られる情報量となる。
\begin{aligned}
H(A ,B) &= H(A) + H(B)
\end{aligned}
加法性がない時
- 「サイコロの出た目」が「3 以下か 4 以上か」を知ることで得られる平均情報量をH(A)、「偶数か奇数か」を知ることで得られる平均情報量をH(B)とする。
- 2つの情報には下記のように「共通している部分」があるため、加法性がない。
|
1 |
2 |
3 |
4 |
5 |
6 |
A |
3 以下 |
3 以下 |
3 以下 |
4 以上 |
4 以上 |
4 以上 |
B |
奇数 |
偶数 |
奇数 |
偶数 |
奇数 |
偶数 |
\begin{aligned}
H(A ,B) &= H(A) + H(B \backslash A) \\
&= H(B) + H(A \backslash B)
\end{aligned}
参考:結合エントロピーって何?分かりやすく解説しました!
条件付きエントロピー
-
Bの値は知っているという状態から、Aを知ることで得られる平均情報量
\begin{aligned}
H(A \backslash B) = - \sum P(B) \sum P(A \backslash B) \log {(P(A \backslash B)})
\end{aligned}
参考:条件付きエントロピーとは?簡単に解説!
相互情報量
- 「2 つの情報が互いにどれだけ影響し合っているか」を表すもの。
- 相互情報量は「平均情報量」と「条件付きエントロピー」の差である。
\begin{aligned}
I(A ,B) &= H(A) - H(A \backslash B) \\
&= H(B) - H(B \backslash A)
\end{aligned}
参考:相互情報量とは?簡単に解説してみました!
\begin{aligned}
I(A ,B) &= H(A) + H(B) - H(B ,A)
\end{aligned}
相対エントロピー(KLダイバージェンス)
- 同じ事象・確率変数における異なる確率分布 P,Qがどれだけ似ているかを表す。
- 完全に同じ場合は0、違いが大きくなると大きな値になる。
- マイナスにならない。
KL 情報量、KL 距離とも呼ぶ。
確率P、確率Qの確率分布がどれだけ近いか、どれだけ遠いか距離のように表す。
確率Qだったと思ってたら確率Pだと判明した時、どれくらい違うか。
そのため P から Q、Q から P で見た時、値が変わる。
\begin{aligned}
D_{KL}( P \parallel Q ) &= E_{x~P} \left[ \log{\frac{P(x)}{Q(x)}} \right] \\[12px]
&= E_{x~P} {[ \log P(x) - \log Q(x)]} \\[12px]
I(Q(x))-I(P(x)) &= (-\log Q(x))-(-\log P(x))\\[12px]
&=\log \frac{P(x)}{Q(x)} \\[12px]
D_{KL}(P\parallel{Q}) &= \sum_{x}{P(x)(-\log Q(x))-(-\log P(x))} \\[12px]
&= \sum_{x}{P(x) \log \frac{P(x)}{Q(x)}} \\[12px]
&= - \sum_{x}{P(x) \log \frac{Q(x)}{P(x)}}
\end{aligned}
\begin{aligned}
D_{KL}( P \parallel P ) &= \sum_{x}{P(x) \log \frac{P(x)}{P(x)}} \\[12px]
&= \sum_{x}{P(x)} \log \hspace{1mm} 1 \\[6px]
&= 0
\end{aligned}
- 離散型確率分布PとQのKLダイバージェンスは、次の式となる。
\begin{aligned}
D_{KL}( P \parallel Q ) &= \int_x {P(x) \log \frac{P(x)}{Q(x)}} dx \\[12px]
&= - \int_x {P(x) \log \frac{Q(x)}{P(x)}} dx
\end{aligned}
交差エントロピー(クロスエントロピー)
- KL ダイバージェンスの一部分を取り出したもの。
-
Qについての自己情報量をPの分布で平均している。
\begin{aligned}
H(P,Q) &= H(P(x)) + D_{KL}(P(x) \parallel Q(x)) \\[6px]
H(P,Q) &= -E_{x~P} \log{Q(x)} \\[6px]
H(P,Q) &= -\sum_x P(x) \log Q(x)
\end{aligned}
- 離散型確率分布PとQの交差エントロピーは、次の式となる。
\begin{aligned}
H(P,Q) &= - \int_x {P(x) \log Q(x)} dx
\end{aligned}
Discussion