はじめに
PRML解答例まとめを参照
演習 1.21
2つの非負の数aとbがあったとき,a≤bならa≤(ab)21であることを示せ.この結果を使って,2クラスのクラス分類問題の決定領域を誤識別率が最小になるように選ぶと,この確率が
p( 誤り )≤∫{p(x,C1)p(x,C2)}1/2dx(1.150)
を満たすことを示せ.
a≤bの両辺の平方根をとると、
a21≤b21
さらに両辺にa21を掛けると、
a≤(ab)21
が得られる。
また、p( 誤り )を最小にするには、決定領域R1においてp(x,C2)≤p(x,C1)、R2においてp(x,C1)≤p(x,C2)でなければならない。
これとa≤(ab)21より、
p( 誤り )=∫R1p(x,C2) dx+∫R2 p(x,C1)dx≤∫R1{p(x,C1)p(x,C2)}1/2dx+∫R2{p(x,C1)p(x,C2)}1/2dx=∫{p(x,C1)p(x,C2)}1/2dx
となり、式(1.150)が得られる。
演習 1.22
Lkjを要素とする損失行列が与えられたとき,期待リスクが最小になるのは,各xに対し,
k∑Lkjp(Ck∣x)(1.81)
を最小にするクラスを選んだときである.損失行列がLkj=1−Ikjで与えられたとき,これが最大事後確率のクラスを選ぶ規準に帰着されることを確かめよ.ただし,Ikjは単位行列の成分を表す.また,この損失行列はどのように解釈できるか?
(1.81)式にLkj=1−Ikjを代入すると、
k∑(1−Ikj)p(Ck∣x)
となり、∑kp(Ck∣x)=1であることを用いると、1−∑kIkjp(Ck∣x)と表せる。この式の最小化はp(Ck∣x)の最大化と同一である。
損失行列1−Ikjの解釈としては、損失行列の対角成分が0、他の成分が1の行列であるから、この行列の期待値の最小化は誤分類の最小化と解釈できる。
演習 1.23
一般の場合に,損失行列とクラスに対する事前確率が与えられたときに,期待損失を最小にする規準を導け.
期待損失は損失行列Lと事後確率p(Ck∣x)で下記のように簡単に表すことができる,
k∑LkjP(Ck∣x)
損失行列Lとクラスの事前確率p(Ck)を代入すると
k∑LkjP(Ck∣x)=p(x)1k∑Lkjp(Ck)p(x∣Ck)
となる.
これによって、期待損失を最小化するにはxを適切なCkに当てはめて、Lkjとp(Ck)のトレードオフ関係を適切に扱うことが期待損失を最小にする基準となっている。
演習 1.24
クラス分類問題を考え,クラスCkからの入力ベクトルをクラスCjと分類したときの損失行列をLkjとし,棄却オプションを選んだときの損失をλとする.このとき期待損失を最小とする決定規準を見つけよ.損失行列がLkj=1−Ikjのときは,決定規準は1.5.3節で議論した棄却規準に帰着されることを確かめよ.また,λと棄却しきい値θにはどんな関係があるか?
(1.81)より、クラスCkからの入力ベクトルをクラスCjと分類したとき、棄却を考えない場合は
j=argjmink∑Lkjp(Ck∣x)
このjを選んだ場合の損失関数はminj∑kLkjp(Ck∣x)となるので、棄却オプションを選んだ時に損失を最小にする決定規準は
choose{classj棄却(minj∑kLkjp(Ck∣x)<λ)(上記以外)
Lkj=1−Ikjのとき、∑kLkjp(Ck∣x)=1−p(Cj∣x)となる(演習1.22参照)。
上記規準に照らし合わせると1−p(Cj∣x)≥λ、つまりp(Cj∣x)≤1−λのときに棄却となる。
1.5.3節の議論より、p(Cj∣x)≤θの時に棄却となるので、θ=1−λとしたとき決定規準は1.5.3節で議論した棄却規準に帰着する。
演習 1.25
単一の目標変数tの
E[L]=∬{y(x)−t}2p(x,t)dxdt(1.87)
の二乗損失関数のベクトル値tで表される多変数の場合への以下の一般化について考える.
E[L(t,y(x))]=∬∥y(x)−t∥2p(x,t)dxdt(1.151)
変分法によって,この期待損失を最小化する関数y(x)がy(x)=Et[t∣x]で与えられることを示せ.単一の目標変数tの場合はこの結果が
y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x](1.89)
に帰着されることを確かめよ.
(1.151)は(1.87)でtをベクトルtで置き換えることで得られる.
E[L]=∬∥y(x)−t∥2p(x,t)dxdt=∫G(y,y′,x)dx
とおき,変分法を用いて期待損失を最小にするyを求める.オイラー方程式より,
δy(x)δE[L]=∂y∂G−dxd(∂y′∂G)=0
ここで∂y′∂G=0であることに注意すると
⇔ ⇔ ⇔ δy(x)δE[L]=∂y∂G=0∂y∂∫∥y(x)−t∥2p(x,t)dt=0∫2{y(x)−t}p(x,t)dt=0y(x)=∫p(x,t)dt∫tp(x,t)dt=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]
となる.ここでベクトルtをスカラーtで置き換えると(1.89)が得られる.
演習 1.26
E[L(t,y(x))]=∬∥y(x)−t∥2p(x,t)dxdt(1.151)
の2乗を展開し,
\mathbb{E}[L]=\int\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\int \operatorname{var}[t \mid \mathbf{x}] p(\mathbf{x}) \mathrm{d} \mathbf{x} \tag{1.90}
に類似の結果を導き,目標変数ベクトル\mathbf{t}の場合に期待二乗損失を最小にする関数\mathbf{y}(\mathbf{x})がやはり\mathbf{t}の条件付き期待値で与えられることを示せ.
まず(1.151)の2乗部分を展開すると
\begin{aligned}\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^{2} &=\left\|\mathbf{y}(\mathbf{x})-\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]+\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]-\mathbf{t}\right\|^{2} \\ &=\left\|\mathbf{y}(\mathbf{x})-\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]\right\|^{2}+2\left\{\mathbf{y}(\mathbf{x})-\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]\right\}^{\mathrm{T}}\left\{\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]-\mathbf{t}\right\}+\left\|\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]-\mathbf{t}\right\|^{2} \end{aligned}
となる.ここで第2項について,
\begin{aligned} \int\left(\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]-\mathbf{t}\right) p(\mathbf{x}, \mathbf{t}) \mathrm{d} \mathbf{t} &=\int \mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}] p(\mathbf{x}, \mathbf{t}) \mathrm{d} \mathbf{t}-\int \mathbf{t} p(\mathbf{x}, \mathbf{t}) \mathrm{d} \mathbf{t} \\ &=\int \mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}] p(\mathbf{x}, \mathbf{t}) \mathrm{d} \mathbf{t}-\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) p(\mathbf{x}) \mathrm{d} \mathbf{t} \\ &=\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}] \int p(\mathbf{x}, \mathbf{t}) \mathrm{d} \mathbf{t}-p(\mathbf{x}) \int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t} \\ &=\mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}] p(\mathbf{x})-p(\mathbf{x}) \mathbb{E}_{\mathbf{t}}[\mathbf{t} \mid \mathbf{x}]=\mathbf{0} \end{aligned}
となる.2行目から3行目への変形には \mathbb{E}[\mathbf{t}|\mathbf{x}] が定数であることと \displaystyle \int\mathbf{t}p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{t}=\mathbb{E}[\mathbf{t}|\mathbf{x}] を用いた.
これらと \displaystyle \int p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{t}=p(\mathbf{x}), \int\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2p(\mathbf{t}|\mathbf{x})\mathrm{d}\mathbf{t}=\mathrm{var}[\mathbf{t}|\mathbf{x}] に注意すると, \mathbb{E}[L] は
\begin{aligned}
\mathbb{E}[L]
&= \iint\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^2p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{x}\mathrm{d}\mathbf{t} \\
&= \iint\|\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{x}\mathrm{d}\mathbf{t} + \iint\|\mathbb{E}[\mathbf{t}|\mathbf{x}]-\mathbf{t}\|^2p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{x}\mathrm{d}\mathbf{t}\\
&= \int\|\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2\int p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{t}\mathrm{d}\mathbf{x} + \iint\|\mathbf{t}-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2p(\mathbf{t}|\mathbf{x})\mathrm{d}\mathbf{t}p(\mathbf{x})\mathrm{d}\mathbf{x}\\
&= \int\|\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}]\|^2p(\mathbf{x})\mathrm{d}\mathbf{x} + \int\mathrm{var}[\mathbf{t}|\mathbf{x}]p(\mathbf{x})\mathrm{d}\mathbf{x}\\
\end{aligned}
と変形でき,期待二乗損失を最小にする \mathbf{y}(\mathbf{x}) が \mathbf{t} の条件付き期待値で与えられることがわかる.
演習 1.27
回帰の問題で,損失関数L_qが
\mathbb{E}\left[L_{q}\right]=\iint|y(\mathbf{x})-t|^{q} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t \tag{1.91}
で与えられるときの期待損失を考える.y(\mathbf{x})が\mathbb{E}[L_q]を最小化するために満たすべき条件を書き下せ.q=1に対しては解が条件付きメディアンになる,つまり,t \lt y(\mathbf{x})となる確率質量とt \ge y(\mathbf{x})となる確率質量は等しいことを示せ.また,q \to 0に対するL_qの期待損失を最小にするのは条件付きモード,つまり関数y(\mathbf{x})が,各\mathbf{x}に対して,p(t|\mathbf{x})を最大にするtの値に等しくなることを示せ.
y(\mathbf{x})は\mathbf{x}と独立なので\mathbf{x}に関する積分の中身\int |y(\mathbf{x})-t|^q p(\mathbf{x},t) \mathrm{d} tを最小化すれば良い。これをy(\mathbf{x})で微分すると、
\begin{aligned}
q \int_{-\infty}^{y(\mathbf{x})} |y(\mathbf{x})-t|^{q-1} p(t|\mathbf{x}) \mathrm{d} t -
q \int_{y(\mathbf{x})}^{\infty} |y(\mathbf{x})-t|^{q-1} p(t|\mathbf{x}) \mathrm{d} t
\end{aligned}
y(\mathbf{x})が\mathbb{E}[L_q]を最小化するために満たすべき条件は、これが0になることなので
\begin{aligned}
q \int_{-\infty}^{y(\mathbf{x})} |y(\mathbf{x})-t|^{q-1} p(t|\mathbf{x}) \mathrm{d} t
&=
q \int_{y(\mathbf{x})}^{\infty} |y(\mathbf{x})-t|^{q-1} p(t|\mathbf{x}) \mathrm{d} t
\end{aligned}
q=1に対しては
\begin{aligned}
q \int_{-\infty}^{y(\mathbf{x})} p(t|\mathbf{x}) \mathrm{d} t
&=
q \int_{y(\mathbf{x})}^{\infty} p(t|\mathbf{x}) \mathrm{d} t
\end{aligned}
となる。つまり、任意の入力\mathbf{x}に対してtがy(\mathbf{x})の左右にいる確率は等しいのでこれは条件付きmedianである。
q→0のとき、再び微分前の式に戻って考える。|y(\mathbf{x})-t|^qのグラフを頭の中で頑張って想像して描いてみると、tのほとんどの値については|y(\mathbf{x})-t|^q=1だが、y(\mathbf{x})=tの近傍でだけ(絶対値の中が0に近いので)グラフが急激に落ち込み|y(\mathbf{x})-t|^q\sim0となる。
よってp(\mathbf{x},t)が最大となるtの場所にy(\mathbf{x})を合わせると、\int |y(\mathbf{x})-t|^q p(\mathbf{x},t) \mathrm{d} tは最小となる。これは条件付きmodeである。
演習 1.28
1.6節でエントロピーh(x)のアイディアを確率分布p(x)を持つ確率変数xの値を観測することによって増える情報量として導入した.また,変数x,yがp(x,y)=p(x)p(y)となって独立なときは,エントロピーは加法的でh(x,y)=h(x)+h(y)となることを見た.この演習問題では,hとpの間の関数関係h(p)を導く.まずh(p^2)=2h(p)となることを示し,数学的帰納法により,正の整数nに対しh(p^n)=nh(p)となることをを示せ.さらに,正の整数mに対し,h(p^{n/m})=(n/m)h(p)が成り立つことを示せ.このことからxが正の有理数のとき,h(p^x)=xh(p)が成り立つが,これは連続性により正の実数値の場合も成り立つ.最後にこのことからh(p)がh(p) \propto \ln pの形を取らなければならないことを示せ.
まず1.6節の議論から、確率分布p(x)に依存し情報量を表す尺度h(x)を導入するとあるが、わかりやすくするため、h(p(x))と書くことにする。p(x,y)=p(x)p(y)と独立なときはエントロピーは加法的h(x,y)=h(x)+h(y)となるべきなので、
\begin{aligned}
&h(x,y) = h(p(x,y)) = h(p(x)p(y)) \\
&h(x)+h(y) = h(p(x)) + h(p(y))
\end{aligned}
となる。すなわち、h(p(x))+h(p(y)) = h(p(x)p(y))である。
ここでy=xとすると、
\begin{aligned}
&h(p(x))+h(p(x)) = 2h(p(x)) \\
&h(p(x)p(x)) = h(p^2(x))
\end{aligned}
よってh(p^2)=2h(p)であることが示された。
h(p^k)=kh(p)が成立することを示す。n=1のときは自明。n=2は上で示した。
k\ge 3となるn=kのときh(p^k)=kh(p)が成立すると仮定すると、n=k+1のとき、
h(p^{k+1})=h(p^kp)=h(p^k)+h(p)=kh(p)+h(p)=(k+1)h(p)
となるので、数学的帰納法からh(p^k)=kh(p)であることが示された。
正の整数mについて、h(p^m) = mh(p)となるので
h(p^{n/m}) = nh(p^{1/m}) = \frac{n}{m}mh(p^{1/m}) = \frac{n}{m}h(p)
となる。よってxが正の有理数ならばh(p^x) = xh(p)となる。またこれは連続性からすべての実数について成立する。
最後にp=q^kとなるような正の実数q,kが存在したとき
\frac{h(p)}{\ln p}=\frac{h(q^k)}{\ln q^k} = \frac{kh(q)}{k\ln q} = \frac{h(q)}{\ln q}
となるので、h(p)\propto \ln pである。
演習 1.29
M状態の離散確率変数xを考え,イェンセンの不等式
f\left(\sum_{i=1}^{M} \lambda_{i} x_{i}\right) \leq \sum_{i=1}^{M} \lambda_{i} f\left(x_{i}\right) \tag{1.115}
を使って,確率分布p(x)のエントロピーが\mathrm{H}[x] \le \ln Mを満たすことを示せ.
イェンセンの不等式(1.115)は以下の通りである。
f(x)を実数上の凸関数(いわゆる下に凸)とする。p_{1},p_{2},\ldots を、p_{1}+p_{2}+\cdots =1を満たす正の実数の列とする。また、x_1, \, x_2, \, \ldotsを実数の列とする。そのとき次式が成り立つ。
\sum_{i=1}^{\infty} p_i f(x_i) \ge f\left( \sum_{i=1}^{\infty} p_i x_i \right)
また関数f(x)が凹関数(いわゆる上に凸)ならば上式の不等号は逆になる。
M状態存在するとき、確率分布p(x)のエントロピーは(1.98)式より
\mathrm{H}[x] = -\sum_{i=1}^{M}p(x_i)\ln p(x_i)=\sum_{i=1}^{M}p(x_i)\ln \frac{1}{p(x_i)}
となる。ここで、p(x_i)\ge 0,\ \sum_{i=1}^{M}p(x_i)=1である。
\ln xは凹関数であることに注意して、イェンセンの不等式の不等号を逆にすると、
\mathrm{H}[x] = \sum_{i=1}^{M}p(x_i)\ln \frac{1}{p(x_i)} \le \ln\left( \sum_{i=1}^{M}p(x_i)\frac{1}{p(x_i)} \right) = \ln \left( \sum_{i=1}^M 1\right) = \ln M
となり、題意は示された。
演習 1.30
2つのガウス分布p(x)=\mathcal{N}\left(x | \mu, \sigma^{2}\right)とq(x)=\mathcal{N}\left(x | m, s^{2}\right)の間のカルバック–ライブラーダイバージェンス
\begin{aligned}
\mathrm{KL}(p \| q) &=-\int p(\mathrm{x}) \ln q(\mathrm{x}) \mathrm{d} \mathrm{x}-\left(-\int p(\mathrm{x}) \ln p(\mathrm{x}) \mathrm{d} \mathrm{x}\right) \\
&=-\int p(\mathrm{x}) \ln \left\{\frac{q(\mathrm{x})}{p(\mathrm{x})}\right\} \mathrm{d} \mathrm{x}
\end{aligned} \tag{1.113}
を計算せよ.
KLの定義より
KL(p\|q)=-\int{p(x)\ln{q(x)}}dx+\int{p(x)\ln{p(x)}}dx
右辺第一項に
q(x)=\frac{1}{(2\pi s^2)^\frac{1}{2}}\exp\left(-\frac{(x-m)^2}{2s^2}\right)
を代入すると
-\int{p(x)\ln{q(x)}}dx=\frac{1}{2}\left(\ln({2\pi s^2})\int{p(x)}dx+\frac{1}{s^2}\left(\int{p(x)x^2}dx-2m\int{p(x)x}dx+m^2\int{p(x)}dx\right)\right)
ここで
\int{p(x)x^2}dx=\mu^2+\sigma^2
を代入して
-\int{p(x)\ln{q(x)}}dx=\frac{1}{2}\left(\ln({2\pi s^2}) +\frac{1}{s^2}\left(\mu^2+\sigma^2+m^2-2m\mu \right)\right)
また、KLの式の右辺第二項は微分エントロピーにマイナスをかけたものであるので、
\int{p(x)\ln{p(x)}}dx=-\frac{1}{2}\left(1+\ln{2\pi\sigma^2}\right)
である。
よって
KL(p\|q)=\ln\left({\frac{s}{\sigma}}\right)+\frac{1}{2}\left(\frac{\mu^2+\sigma^2+m^2-2m\mu}{s^2}-1\right)
演習 1.31
2つの変数\mathbf{x}, \mathbf{y}を考え,同時分布をp(\mathbf{x},\mathbf{y})とする.この変数の組の微分エントロピーが
\mathrm{H}[\mathbf{x}, \mathbf{y}] \le \mathrm{H}[\mathbf{x}] + \mathrm{H}[\mathbf{y}] \tag{1.152}
を満たし,等号は\mathbf{x}と\mathbf{y}が統計的に独立なとき,またそのときに限ることを示せ.
(i)
変数\mathbf{x}, \mathbf{y}及び同時分布p(\mathbf{x},\mathbf{y})の微分エントロピーは以下の形式に変換することができる
\begin{aligned}
\mathrm{H}[\mathbf{x}] &= -\int{p(\mathbf{x})\ln{p(\mathbf{x})}}d\mathbf{x}\\
&= -\iint{p(\mathbf{x})p\left(\mathbf{y}\right)\ln{p(\mathbf{x})}}d\mathbf{x}d\mathbf{y}\\
\mathrm{H}[\mathbf{y}] &= -\int{p(\mathbf{y})\ln{p(\mathbf{y})}}d\mathbf{y}\\
&=-\iint{p(\mathbf{x})p(\mathbf{y})\ln{p(\mathbf{y})}}d\mathbf{x}d\mathbf{y}\\
\mathrm{H}[\mathbf{\mathbf{x,y}}] &= -\iint{p(\mathbf{\mathbf{x,y}})\ln{p(\mathbf{\mathbf{x,y}})}}d\mathbf{x}d\mathbf{y}
\end{aligned}
すると\mathrm{H}[\mathbf{x}] + \mathrm{H}[\mathbf{y}]は
\begin{aligned}
\mathrm{H}[\mathbf{x}] + \mathrm{H}[\mathbf{y}] &=-\iint{p(\mathbf{x})p(\mathbf{y})\left(\ln{p(\mathbf{x})} + \ln{p(\mathbf{y})}\right)}d\mathbf{x}d\mathbf{y}\\
&=-\iint{p(\mathbf{x})p(\mathbf{y})\ln{p(\mathbf{x})p(\mathbf{y})}}d\mathbf{x}d\mathbf{y}
\end{aligned}
となる。
p(\mathbf{x,y}) \ge p(\mathbf{x})p(\mathbf{y})によって,\mathrm{H}[\mathbf{x}, \mathbf{y}] \le \mathrm{H}[\mathbf{x}] + \mathrm{H}[\mathbf{y}]が満たされ,等号はp(\mathbf{x,y}) = p(\mathbf{x})p(\mathbf{y})の時、つまり\mathbf{x}と\mathbf{y}が統計的に独立なとき,またそのときに限ることが示された.
(ii)
(1.112)より
\mathrm{H}[\mathbf{x}] =H[\mathbf{x}\mid\mathbf{y}]+\mathrm{H}[\mathbf{x}]
であるので、
H[\mathbf{x}\mid\mathbf{y}]+\mathrm{H}[\mathbf{x}]\le \mathrm{H}[\mathbf{x}]+\mathrm{H}[\mathbf{y}]
すなわち
\mathrm{H}[\mathbf{y}]-H[\mathbf{x}\mid\mathbf{y}] \ge 0
を示せば良い。
ここで、(1.121)より(左辺)は
\mathrm{H}[\mathbf{y}]-H[\mathbf{x}\mid\mathbf{y}]=I[\mathbf{x,y}]
と書き表せ、これは変数\mathbf{x,y}の間の相互情報量を表す。
よって、カルバックーライブラーダイバージェンスの性質から
\mathrm{H}[\mathbf{y}]-H[\mathbf{x}\mid\mathbf{y}] \ge 0
H[\mathbf{x}\mid\mathbf{y}]+\mathrm{H}[\mathbf{x}]\le \mathrm{H}[\mathbf{x}]+\mathrm{H}[\mathbf{y}]
\mathrm{H}[\mathbf{x}]\le \mathrm{H}[\mathbf{x}]+\mathrm{H}[\mathbf{y}]
となり、等号成立は I[\mathbf{x,y}]=0 すなわち\mathbf{x}と\mathbf{y}が独立なときに限ることが示された。
演習 1.32
連続変数のベクトル\mathbf{x}を考え,それが分布p(\mathbf{x})とそれに対応するエントロピー\mathrm{H}[\mathbf{x}]を持つとする.\mathbf{x}に非特異な線形変換を行い,新たな変数\mathbf{y} = \mathbf{A}\mathbf{x}を得たとする.対応するエントロピーが\mathrm{H}[\mathbf{y}] = \mathrm{H}[\mathbf{x}] + \ln |\det (\mathbf{A})|で与えられることを示せ.ただし|\det (\mathbf{A})|は\mathbf{A}の行列式の絶対値である.
(1.27)より
p(x) = p(y)\left| \frac{dy}{dx} \right|
ここで\mathbf{y}=\mathbf{A}\mathbf{x}より、ヤコビアンは
\frac{d\mathbf{y}}{d\mathbf{x}}=\mathbf{A}
ゆえに
p(\mathbf{x})=p(\mathbf{y})|\det(\mathbf{A})|
であるから、
p(\mathbf{y})=|\det(\mathbf{A})|^{-1} p(\mathbf{x})
d\mathbf{y}=|\det(\mathbf{A})| d\mathbf{x}
と書き換えることができる。
以上より
\begin{aligned}H[\mathbf{y}]&=-\int p(\mathbf{y}) \ln p(\mathbf{y}) d\mathbf{y} \\&= -\int \{|\det(\mathbf{A})|^{-1} p(\mathbf{x})\} \{\ln (|\det(\mathbf{A})|^{-1} p(\mathbf{x})) \}|\det(\mathbf{A})| d\mathbf{x} \\
&=-\int \{|\det(\mathbf{A})|^{-1} p(\mathbf{x})\} \{\ln (|\det(\mathbf{A})|^{-1}\}|\det(\mathbf{A})| d\mathbf{x}-\{|\det(\mathbf{A})|^{-1} p(\mathbf{x})\} \{\ln p(\mathbf{x})\}|\det(\mathbf{A})| d\mathbf{x} \\
&= |\det(\mathbf{A})|\int p(\mathbf{x}) \ln d\mathbf{x} - \int p(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x} \\
&= \ln |\det(\mathbf{A})|+H[\mathbf{x}] \end{aligned}
となり、\mathrm{H}[\mathbf{y}] = \mathrm{H}[\mathbf{x}] + \ln |\det (\mathbf{A})|が示された。
演習 1.33
2つの離散確率変数x,yの間の条件付きエントロピー\mathrm{H}[y|x]が0であるとする.するとp(x) > 0なるすべてのxの値に対し,変数yはxの関数でなければならない,すなわち,各xに対してp(y|x)\ne 0であるyが唯一つ存在することを示せ.
\tag{1.98}
\mathrm{H}[p] = -\sum_{i}p(x_i)\ln p(x_i)
\tag{1.111}
\mathrm{H}[\mathbf{y} \mid \mathbf{x}] = - \iint p(\mathbf{y}, \mathbf{x}) \ln p(\mathbf{y} \mid \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x}
を参考にすると,離散確率変数の条件付きエントロピーは
\begin{aligned}
\mathrm{H}[y \mid x] =& - \sum_{i}\sum_{j} p(y_i, x_j) \ln p(y_i \mid x_j) \\
=& - \sum_{i}\sum_{j} p(y_i \mid x_j) p(x_j) \ln p(y_i \mid x_j) \\
\end{aligned}
となる.ここで,問題文の\mathrm{H}[y \mid x]=0とp(x) > 0という条件より,
\begin{aligned}
& \mathrm{H}[y \mid x] = 0 \\
\Leftrightarrow & -\sum_{i}\sum_{j} p(y_i \mid x_j) p(x_j) \ln p(y_i \mid x_j) = 0 \\
\Leftrightarrow & - \sum_{i}\sum_{j} p(y_i \mid x_j) \ln p(y_i \mid x_j) = 0 \\
\end{aligned}
となる必要がある.ここでさらに,0 \leqslant p(y_i \mid x_j) \leqslant 1より,0 < - p(y_i \mid x_j) \ln p(y_i \mid x_j)であるため結局全てのi, jにおいて
p(y_i \mid x_j) \ln p(y_i \mid x_j) = 0
となる必要がある.これが成立するのは,p(y_i \mid x_j) = 0またはp(y_i \mid x_j) = 1のときであるが,p(y_i \mid x_j)は確率なので\displaystyle \sum_i p(y_i \mid x_j) = 1となる必要がある.つまり,あるx_jに対してp(y_i \mid x_j)は1つだけ1で残りが全て0でなければならない.これはまさに,各xに対してp(y \mid x)\ne 0であるyが唯一つ存在することを示している.
演習 1.34
変分法を使って,
p(x)=\exp \left\{-1+\lambda_{1}+\lambda_{2} x+\lambda_{3}(x-\mu)^{2}\right\} \tag{1.108}
式の上にある汎関数の停留点が(1.108)で与えられることを示せ.また,制約
\begin{aligned}
\int_{-\infty}^{\infty} p(x) \mathrm{d} x &=1 \tag{1.105}
\end{aligned}
\begin{aligned}
\int_{-\infty}^{\infty} x p(x) \mathrm{d} x &=\mu \tag{1.106}
\end{aligned}
\begin{aligned}
\int_{-\infty}^{\infty}(x-\mu)^{2} p(x) \mathrm{d} x &=\sigma^{2} \tag{1.107}
\end{aligned}
を使ってラグランジュ乗数を消去し,最大エントロピー解がガウス分布
p(x)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\} \tag{1.109}
で与えられることを示せ.
(1.108)式の上にある汎関数を\mathrm{F}(p(x))とおくと
\begin{aligned}
\mathrm{F}(p(x)) &= \int^{\infty}_{-\infty} \{ -\ln p(x) + \lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2 \}p(x)\mathrm{d}x + (-\lambda_1-\lambda_2\mu-\lambda_3\sigma^2) \\
&= \int^{\infty}_{-\infty}\mathrm{G}(p(x))\mathrm{d}x + \mathrm{C}
\end{aligned}
と変形できる。
変分法により
\begin{aligned}
\frac{\delta\mathrm{F}(p(x))}{\delta p(x)} &= \frac{\partial\mathrm{G}(p(x))}{\partial p(x)} \\
&= -1 -\ln p(x) + \lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2
\end{aligned}
これを0とおくと
\begin{aligned}
\ln p(x) &= -1 + \lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2 \\
p(x) &= \exp \{-1 + \lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2\}
\end{aligned}
となり、(1.108)が導出できる。また、最大エントロピー解がガウス分布であるとすると
\begin{aligned}
p(x) &= \exp \{-1 + \lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2\} \\
&= \exp(-1 + \lambda_1 + \lambda_2x) \exp \{\lambda_3(x-\mu)^2\} \\
&= \frac{1}{(2\pi\sigma)^{1/2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}
\end{aligned}
とおける。上式より
\begin{aligned}
\lambda_1 &= 1-\frac{1}{2}\ln(2\pi\sigma^2) \\
\lambda_2 &= 0 \\
\lambda_3 &= -\frac{1}{2\sigma^2}
\end{aligned}
とするとこれは(1.105), (1.106), (1.107)を満たし、p(x)がガウス分布であることを示す。
演習 1.35
\int_{-\infty}^{\infty} x p(x) \mathrm{d} x =\mu \tag{1.106}
と
\int_{-\infty}^{\infty}(x-\mu)^{2} p(x) \mathrm{d} x =\sigma^{2} \tag{1.107}
を使って,1変数ガウス分布
p(x)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\} \tag{1.109}
のエントロピーが
\mathrm{H}[x]=\frac{1}{2}\left\{1+\ln \left(2 \pi \sigma^{2}\right)\right\} \tag{1.110}
で与えられることを示せ.
(1.104)の微分エントロピーの定義式の\ln p(x)のp(x)に(1.105)を代入すると
\begin{aligned} H[x]
&=-\int p(x) \ln \left(\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{1}{2}}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)\right) dx \\
&=-\int p(x)\left(-\frac{1}{2} \ln \left(2 \pi \sigma^{2}\right)-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)dx \\
&=\frac{1}{2} \ln \left(2 \pi \sigma^{2}\right) \int p(x) d x+\frac{1}{2 \sigma^{2}} \int p(x)(x-\mu)^{2}dx \\
&=\frac{1}{2}\left\{1+\ln \left(2 \pi \sigma^{2}\right)\right\}
\end{aligned}
式(1.106)の\displaystyle \int_{-\infty}^{\infty} x p(x) \mathrm{d} x=\muと式(1.107)の\displaystyle \int_{-\infty}^{\infty}(x-\mu)^{2} p(x) \mathrm{d} x=\sigma^{2}を利用した。
演習 1.36
真に凸な関数はすべての弦が関数の上にあるものとして定義される.これが関数の2階微分が正であることと等価であることを示せ.
テイラー展開の2次まで使うと、x=x_0の周りで展開したとき
f(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{1}{2} f^{\prime\prime}\left(x^{*}\right)\left(x-x_{0}\right)^{2}
となるようなx^{*}が存在する。今、f^{\prime \prime}\left(x^{*}\right)>0なので,
f(x)>f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)
が成り立つ。今、x_0をa, b, \lambdaを使ってx_{0}=\lambda a+(1-\lambda) bとすると、x=aの点で成り立つ式は
\begin{aligned}
f(a)&>f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(a-x_{0}\right) \\
&= f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)(1-\lambda)(a-b)
\end{aligned}\tag{1}
同様に、x=bの点で成り立つ式は
\begin{aligned} f(b) &>f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(b-x_{0}\right) \\ &=f\left(x_{0}\right)-f^{\prime}\left(x_{0}\right) \lambda(a-b) \end{aligned}\tag{2}
(1)
\lambda f(a)+(1-\lambda) f(b)>f\left(x_{0}\right)=f(\lambda a+(1-\lambda) b)
となり、凸性の条件式(1.114)を得る。
演習 1.37
\mathrm{H}[\mathbf{y} \mid \mathbf{x}]=-\iint p(\mathbf{y}, \mathbf{x}) \ln p(\mathbf{y} \mid \mathbf{x}) \mathrm{d} \mathbf{y} \mathrm{d} \mathbf{x} \tag{1.111}
の定義と確率の乗法定理から,
\mathrm{H}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{y} \mid \mathbf{x}]+\mathrm{H}[\mathbf{x}] \tag{1.112}
を証明せよ.
式(1.104)のH[\mathbf{x}]= - \int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x} より、p(\mathbf{x},\mathbf{y})の微分エントロピーは、
\begin{aligned}
H[\mathbf{x},\mathbf{y}]
&= - \int \int p(\mathbf{x},\mathbf{y}) \ln p(\mathbf{x},\mathbf{y}) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y}
\end{aligned}
同時分布p(\mathbf{x},\mathbf{y}) = p(\mathbf{y}|\mathbf{x})p(\mathbf{x}) より、
\begin{aligned}
H[\mathbf{x},\mathbf{y}]
&= - \int \int p(\mathbf{x},\mathbf{y}) \ln (p(\mathbf{y}|\mathbf{x})p(\mathbf{x})) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y} \\
&= - \int \int p(\mathbf{x},\mathbf{y}) (\ln p(\mathbf{y}|\mathbf{x}) + \ln p(\mathbf{x})) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y} \\
&= - \int \int p(\mathbf{x},\mathbf{y}) \ln p(\mathbf{y}|\mathbf{x}) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y} - \int \int p(\mathbf{x},\mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y}
\end{aligned}
\int \int p(\mathbf{x},\mathbf{y}) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y} = \int p(\mathbf{x}) \mathrm{d}\mathbf{x} より、
\begin{aligned}
H[\mathbf{x},\mathbf{y}]
&= - \int \int p(\mathbf{x},\mathbf{y}) \ln p(\mathbf{y}|\mathbf{x}) \mathrm{d}\mathbf{x} \mathrm{d}\mathbf{y} - \int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x} \\
&= H[\mathbf{y}| \mathbf{x}] + H[\mathbf{x}]
\end{aligned}
演習 1.38
数学的帰納法により,凸関数に関する不等式
f(\lambda a+(1-\lambda) b) \leq \lambda f(a)+(1-\lambda) f(b) \tag{1.114}
から
f\left(\sum_{i=1}^{M} \lambda_{i} x_{i}\right) \leq \sum_{i=1}^{M} \lambda_{i} f\left(x_{i}\right) \tag{1.115}
が導かれることを示せ.
(1.114)式の凸性を表す式f(\lambda a+(1-\lambda) b) \leq \lambda f(a)+(1-\lambda) f(b)から
f\left(\sum_{i=1}^{M} \lambda_{i} x_{i}\right) \leq \sum_{i=1}^{M} \lambda_{i} f\left(x_{i}\right) \cdots(*)
が成立することを数学的帰納法で示す。ここで、\lambda_i\geq0および\sum_{i}\lambda_i = 1である。
(ⅰ) M=1のとき、
\lambda=1なので、(*)式はf(x_1) \le f(x_1)となるので成立する。
(ⅱ) M=2のとき、
\lambda_2=1-\lambda_1であることに注意すると
f\left(\lambda_{1} x_{1}+\left(1-\lambda_{1}\right) x_{2}\right) \leq \lambda_{1} f\left(x_{1}\right)+\left(1-\lambda_{1}\right) f\left(x_{2}\right)
これは(1.114)式と同じなので、成立する。
(ⅲ) M=k\ (k\ge 2)のとき、
f\left(\sum_{i=1}^{k} \lambda_{i} x_{i}\right) \leq \sum_{i=1}^{k} \lambda_{i} f\left(x_{i}\right)
成立していると仮定すると、M=k+1のとき
\begin{aligned}
f\left(\sum_{i=1}^{k+1} \lambda_{i} x_{i}\right) &=f\left(\sum_{i=1}^{k} \lambda_{i} x_{i}+\lambda_{k+1} x_{k+1}\right) \\
&=f\left(\left(1-\lambda_{k+1}\right) \frac{\sum_{i=1}^{k} \lambda_{i} x_{i}}{1-\lambda_{k+1}}+\lambda_{k+1} x_{k+1}\right) \\
& \leq\left(1-\lambda_{k+1}\right) f\left(\frac{\sum_{i=1}^{k} \lambda_{i} x_{i}}{1-\lambda_{k+1}}\right)+\lambda_{k+1} f\left(x_{k+1}\right)\hspace{1em}((1.114)式より)
\end{aligned}
ここで、\displaystyle \frac{\sum_{i=1}^{k} \lambda_{i}}{1-\lambda_{k+1}}=\frac{1-\lambda_{k+1}}{1-\lambda_{k+1}}=1となることに注意して、
また、f\left(\sum_{i=1}^{k} \lambda_{i} x_{i}\right) \leq \sum_{i=1}^{k} \lambda_{i} f\left(x_{i}\right)の仮定が適用できるので、
\begin{aligned}
&\left(1-\lambda_{k+1}\right) f\left(\frac{\sum_{i=1}^{k} \lambda_{i} x_{i}}{1-\lambda_{k+1}}\right)+\lambda_{k+1} f\left(x_{k+1}\right) \\
\leq&\left(1-\lambda_{k+1}\right) \sum_{i=1}^{k} \frac{\lambda_{i}}{1-\lambda_{k+1}} f\left(x_{i}\right)+\lambda_{k+1} f\left(x_{k+1}\right) \\
=&\sum_{i=1}^{k} \lambda_{i} f\left(x_{i}\right)+\lambda_{k+1} f\left(x_{k+1}\right) \\
=&\sum_{i=1}^{k+1} \lambda_{i} f\left(x_{i}\right)
\end{aligned}
となるので、M=k+1でも成立することが示された。
したがって数学的帰納法より、(1.115)式が成立することが示された。
演習 1.39

2つの2値変数x,yが表1.3の同時分布を持つとする.以下の量を計算せよ.
(a) \mathrm{H}[x], (b) \mathrm{H}[y], (c) \mathrm{H}[y|x], (d) \mathrm{H}[x|y], (e) \mathrm{H}[x,y], (f) \mathrm{I}[x,y]
これらのさまざまな量の間の関係を示す図を描け.
まず表1.3の同時分布p(x,y)を元にp(x),p(y),p(y|x),p(x|y)の同時分布の表を作成する。\displaystyle p(y|x) = \frac{p(x,y)}{p(x)}を用いる。
\begin{array} {rr|rr}
&&&y\\
& & 0 & 1 \\
\hline x & 0 & 1/3 & 1/3 \\
& 1 & 0 & 1/3 \\
\end{array} \\
p(x,y)
\begin{array} {rr|r}
& & \\
\hline x & 0 & 2/3 \\
& 1 & 1/3 \\
\end{array} \\
p(x)
\begin{array} {rr}
& y \\
0 & 1 \\
\hline 1/3 & 2/3 \\
\end{array} \\
p(y)
\begin{array} {rr|rr}
&&&y\\
& & 0 & 1 \\
\hline x & 0 & 1/2 & 1/2 \\
& 1 & 0 & 1 \\
\end{array} \\
p(y|x)
\begin{array} {rr|rr}
&&&y\\
& & 0 & 1 \\
\hline x & 0 & 1 & 1/2 \\
& 1 & 0 & 1/2 \\
\end{array} \\
p(x|y)
(a)
\begin{aligned}
\mathrm{H}[x]&= -\sum_{i}p(x)\ln p(x) \\
&= -\left\{ \frac{2}{3}\ln\frac{2}{3}+\frac{1}{3}\ln\frac{1}{3} \right\} \\
&= \ln 3 - \frac{2}{3}\ln 2
\end{aligned}
(b)
\begin{aligned}
\mathrm{H}[y]&= -\left\{ \frac{1}{3}\ln\frac{1}{3}+\frac{2}{3}\ln\frac{2}{3} \right\} \\
&= \ln 3 - \frac{2}{3}\ln 2
\end{aligned}
(c)
\begin{aligned}
\mathrm{H}[y|x]&= -\sum_{i}\sum_{j}p(y,x)\ln p(y|x)dydx \\
&= -\left\{ \frac{1}{3}\ln\frac{1}{2}+\frac{1}{3}\ln\frac{1}{2} + \frac{1}{3}\ln 1 \right\} \\
&= \frac{2}{3}\ln 2
\end{aligned}
(d)
\begin{aligned}
\mathrm{H}[x|y]&= -\left\{ \frac{1}{3}\ln 1 + \frac{1}{3}\ln\frac{1}{2}+\frac{1}{3}\ln\frac{1}{2} \right\} \\
&= \frac{2}{3}\ln 2
\end{aligned}
(e)
\begin{aligned}
\mathrm{H}[x,y]&= -\left\{ \frac{1}{3}\ln \frac{1}{3} + \frac{1}{3}\ln \frac{1}{3}+\frac{1}{3}\ln\frac{1}{3} \right\} \\
&= \ln 3
\end{aligned}
または\mathrm{H}[x,y]=\mathrm{H}[y|x]+\mathrm{H}[x]=\mathrm{H}[x|y]+\mathrm{H}[y]=\ln 3からも求まる。
(f)
\begin{aligned}
\mathrm{I}[x,y]&= \mathrm{H}[x] - \mathrm{H}[x|y] = \mathrm{H}[y] - \mathrm{H}[y|x] \\
&= \ln 3 - \frac{4}{3}\ln 2
\end{aligned}

演習 1.40
イェンセンの不等式
f\left(\sum_{i=1}^{M} \lambda_{i} x_{i}\right) \leq \sum_{i=1}^{M} \lambda_{i} f\left(x_{i}\right) \tag{1.115}
をf(x)=\ln xに適用し,実数集合の算術平均が,幾何平均より決して小さくならないことを示せ.
算術平均\displaystyle x_a=\frac{1}{N}\sum_{i=1}^N x_i, 幾何平均\displaystyle x_g = \left( \prod_{i=1}^N x_i\right)^{\frac{1}{N}}である。
これについてx_a \ge x_gが成立することをイェンセンの不等式を用いて示す。
問題設定でf(x) = \ln xに適用し、とあるのでx>0である。よって\ln x_a \ge \ln x_gであることを示すことにする。すなわち
\ln x_a = \ln \left( \sum_{i=1}^N \frac{1}{N}x_i \right)
\ln x_g = \ln \left( \prod_{i=1}^N x_i \right)^{\frac{1}{N}} = \sum_{i=1}^N \frac{1}{N} \ln x_i
凹関数であるf(x)=\ln xを用いてイェンセンの不等式を適用すると
\ln x_a = \ln \left( \sum_{i=1}^N \frac{1}{N}x_i \right) \ge \sum_{i=1}^N \frac{1}{N} \ln x_i = \ln x_g
となるので、x_a \ge x_gとなることが示された。
演習 1.41
確率の加法・乗法定理を使って,相互情報量I(\mathbf{x},\mathbf{y})が
\mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} \mid \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} \mid \mathbf{x}] \tag{1.121}
の関係を満たすことを示せ.
\begin{aligned}
\mathrm{I}[\mathbf{x}, \mathbf{y}] &=\mathrm{KL}(p(\mathbf{x}, \mathbf{y}) \| p(\mathbf{x}) p(\mathbf{y})) \\
&=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) d\mathbf{x} d\mathbf{y}
\end{aligned}
である。ここで確率の乗法定理p(\mathbf{x},\mathbf{y})=p(\mathbf{y}|\mathbf{x})p(\mathbf{x})から
\begin{aligned}
\mathrm{I}[\mathbf{x}, \mathbf{y}]&=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{y} \mid \mathbf{x})p(\mathbf{x})}\right) d \mathbf{x} d \mathbf{y} \\
&=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{y})}{p(\mathbf{y} \mid \mathbf{x})}\right) d \mathbf{x} d \mathbf{y} \\
&=-\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}) d \mathbf{x} d \mathbf{y}+\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y} \mid \mathbf{x}) d \mathbf{x} d \mathbf{y}\\
&=-\int p(\mathbf{y}) \ln p(\mathbf{y}) d \mathbf{y}+\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y} \mid \mathbf{x}) d \mathbf{x} d \mathbf{y} \\
&=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} | \mathbf{x}]
\end{aligned}
最後は
\mathrm{H}[\mathbf{y} \mid \mathbf{x}]=-\iint p(\mathbf{y}, \mathbf{x}) \ln p(\mathbf{y} \mid \mathbf{x}) \mathrm{d} \mathbf{y} \mathrm{d} \mathbf{x} \tag{1.111}
式を用いた。また、p(\mathbf{x}, \mathbf{y})=p(\mathbf{x}|\mathbf{y})p(\mathbf{y})を用いれば同様にして
\mathrm{I}[\mathbf{x}, \mathbf{y}] =\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x|y}]
が求まる。
Discussion