👻

Deep Learning資格試験応用数学情報理論

2022/01/05に公開

はじめに

日本ディープラーニング協会の Deep Learning 資格試験（E 資格）の受験に向けて、調べた内容をまとめていきます。

\begin{aligned} I(x) &= - \log {P(x)} \end{aligned}

予測できなさ、不確定さとも言える。
例）コイントスの場合、表ばかり出る、裏ばかり出るよりも表裏が大体同じくらい出る(次どっちでるか分からない)方がこのシャノンエントロピーは大きくなる。

\begin{aligned} H(X) &= E(I(x)) \\[12px] &= - E \log P(x) \\[12px] &= - \sum _{} ^{} {P(x) \log P(x)} \end{aligned}

\begin{aligned} H(X) &= - \int_x {P(x) \log P(x)} dx \end{aligned}

\begin{aligned} H(A ,B) &= H(A) + H(B) \end{aligned}

「サイコロの出た目」が「3 以下か 4 以上か」を知ることで得られる平均情報量を $H(A)$ 、「偶数か奇数か」を知ることで得られる平均情報量を $H(B)$ とする。
２つの情報には下記のように「共通している部分」があるため、加法性がない。

	1	2	3	4	5	6
A	3 以下	3 以下	3 以下	4 以上	4 以上	4 以上
B	奇数	偶数	奇数	偶数	奇数	偶数

\begin{aligned} H(A ,B) &= H(A) + H(B \backslash A) \\ &= H(B) + H(A \backslash B) \end{aligned}

\begin{aligned} H(A \backslash B) = - \sum P(B) \sum P(A \backslash B) \log {(P(A \backslash B)}) \end{aligned}

\begin{aligned} I(A ,B) &= H(A) - H(A \backslash B) \\ &= H(B) - H(B \backslash A) \end{aligned}

\begin{aligned} I(A ,B) &= H(A) + H(B) - H(B ,A) \end{aligned}

KL 情報量、KL 距離とも呼ぶ。
確率 $P$ 、確率 $Q$ の確率分布がどれだけ近いか、どれだけ遠いか距離のように表す。
確率 $Q$ だったと思ってたら確率 $P$ だと判明した時、どれくらい違うか。
そのため $P$ から $Q$ 、 $Q$ から $P$ で見た時、値が変わる。

\begin{aligned} D_{KL}( P \parallel Q ) &= E_{x～P} \left[ \log{\frac{P(x)}{Q(x)}} \right] \\[12px] &= E_{x～P} {[ \log P(x) - \log Q(x)]} \\[12px] I(Q(x))-I(P(x)) &= (-\log Q(x))-(-\log P(x))\\[12px] &=\log \frac{P(x)}{Q(x)} \\[12px] D_{KL}(P\parallel{Q}) &= \sum_{x}{P(x)(-\log Q(x))-(-\log P(x))} \\[12px] &= \sum_{x}{P(x) \log \frac{P(x)}{Q(x)}} \\[12px] &= - \sum_{x}{P(x) \log \frac{Q(x)}{P(x)}} \end{aligned}

\begin{aligned} D_{KL}( P \parallel P ) &= \sum_{x}{P(x) \log \frac{P(x)}{P(x)}} \\[12px] &= \sum_{x}{P(x)} \log \hspace{1mm} 1 \\[6px] &= 0 \end{aligned}

\begin{aligned} D_{KL}( P \parallel Q ) &= \int_x {P(x) \log \frac{P(x)}{Q(x)}} dx \\[12px] &= - \int_x {P(x) \log \frac{Q(x)}{P(x)}} dx \end{aligned}

\begin{aligned} H(P,Q) &= H(P(x)) + D_{KL}(P(x) \parallel Q(x)) \\[6px] H(P,Q) &= -E_{x～P} \log{Q(x)} \\[6px] H(P,Q) &= -\sum_x P(x) \log Q(x) \end{aligned}

\begin{aligned} H(P,Q) &= - \int_x {P(x) \log Q(x)} dx \end{aligned}