はじめに
PRML解答例まとめを参照
演習 5.21
(難問)ヘッセ行列の外積による近似式
\mathbf{H}_{N}=\sum_{n=1}^{N} \mathbf{b}_{n} \mathbf{b}_{n}^{\mathrm{T}} \tag{5.86}
を出力ユニットがK>1個ある場合に拡張せよ.すなわち,パターンの寄与だけではなく出力の寄与も逐次的に受ける形の
\mathbf{H}_{L+1}=\mathbf{H}_{L}+\mathbf{b}_{L+1} \mathbf{b}_{L+1}^{\mathrm{T}} \tag{5.87}
を導け.この式と
\left(\mathbf{M}+\mathbf{vv}^{\mathrm{T}}\right)^{-1}=\mathbf{M}^{-1}-\frac{\left(\mathbf{M}^{-1} \mathbf{v}\right)\left(\mathbf{v}^{\mathbf{T}} \mathbf{M}^{-1}\right)}{1+\mathbf{v}^{\mathbf{T}} \mathbf{M}^{-1} \mathbf{v}} \tag{5.88}
により,
\mathbf{H}_{L+1}^{-1}=\mathbf{H}_{L}^{-1}-\frac{\mathbf{H}_{L}^{-1} \mathbf{b}_{L+1} \mathbf{b}_{L+1}^{\mathrm{T}} \mathbf{H}_{L}^{-1}}{1+\mathbf{b}_{L+1}^{\mathrm{T}} \mathbf{H}_{L}^{-1} \mathbf{b}_{L+1}} \tag{5.89}
を利用して個々のパターンと出力からの寄与を逐次的に扱うことでヘッセ行列の逆行列を求めることができるようになる.
演習問題5.16 とほぼ同じ……?
演習5.16の結果から、K次元の複数出力を持つ場合のヘッセ行列の外積による近似式は
\mathbf{H}_{N,K}=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbf{b}_{n,k} \mathbf{b}_{n,k}^{\mathrm{T}}
である。ここで\mathbf{b}_{n,k} = \nabla y_{nk}である。
これより単純にN \to N+1とすれば
\begin{aligned}
\mathbf{H}_{N+1,K} &= \mathbf{H}_{N,K} + \sum_{k=1}^{K}\mathbf{b}_{N+1,k}\mathbf{b}_{N+1,k}^{\mathrm T} \\
&= \mathbf{H}_{N,K} + \mathbf{B}_{N+1}\mathbf{B}_{N+1}^{\mathrm T}
\end{aligned}
の式が成り立つ。ここで\mathbf{B}_{N+1}は\left( \mathbf{b}_{N+1,1}, \ldots , \mathbf{b}_{N+1,K} \right)で構成されるM\times Kの行列である。
(5.88)を使えば
\mathbf{H}_{N+1, K}^{-1}=\mathbf{H}_{N, K}^{-1}-\frac{\mathbf{H}_{N, K}^{-1} \mathbf{B}_{N+1} \mathbf{B}_{N+1}^{\mathrm T} \mathbf{H}_{N, K}^{-1}}{1+\mathbf{B}_{N+1}^{\mathrm T} \mathbf{H}_{N, K}^{-1} \mathbf{B}_{N+1}}
と書ける。
演習 5.22
微分のチェーンルールを応用して,2層フィードフォワードネットワークのヘッセ行列の要素について
\frac{\partial^{2} E_{n}}{\partial w_{k j}^{(2)} \partial w_{k^{\prime} j^{\prime}}^{(2)}}=z_{j} z_{j^{\prime}} M_{k k^{\prime}} \tag{5.93}
\frac{\partial^{2} E_{n}}{\partial w_{j i}^{(1)} \partial w_{j^{\prime} i^{\prime}}^{(1)}}=x_{i} x_{i^{\prime}} h^{\prime \prime}\left(a_{j^{\prime}}\right) I_{j j^{\prime}} \sum_{k} w_{k j^{\prime}}^{(2)} \delta_{k} +x_{i} x_{i^{\prime}} h^{\prime}\left(a_{j^{\prime}}\right) h^{\prime}\left(a_{j}\right) \sum_{k} \sum_{k^{\prime}} w_{k^{\prime} j^{\prime}}^{(2)} w_{k j}^{(2)} M_{k k^{\prime}} \tag{5.94}
および
\frac{\partial^{2} E_{n}}{\partial w_{j i}^{(1)} \partial w_{k j^{\prime}}^{(2)}}=x_{i} h^{\prime}\left(a_{j}\right)\left\{\delta_{k} I_{j j^{\prime}}+z_{j^{\prime}} \sum_{k^{\prime}} w_{k^{\prime} j}^{(2)} M_{k k^{\prime}}\right\} \tag{5.95}
の結果を導け.
(5.93)について
\left\{\begin{array}{l}
a_{j}=\sum_{i} w_{j i} x_{i} \\
z_{j}=h\left(a_{j}\right) \\
y_{k}=g\left(a_{k}\right) \\
\delta_{k}=\frac{\partial E_{n}}{\partial a_{k}} \\
M_{k k^{\prime}}=\frac{\partial^{2} E_{n}}{\partial a_{k} \partial a_{k}^{\prime}}
\end{array}\right.
とする。
\begin{aligned}
\frac{\partial E_{n}}{\partial w_{kj}^{(2)}} &=\frac{\partial E_{n}}{\partial a_{k}} \frac{\partial a_{k}}{\partial w_{kj}^{(2)}} \\
&=\frac{\partial E_{n}}{\partial a_{k}} \cdot \frac{\partial} {\partial w_{k j}^{(2)}}\sum_{j} w_{kj}^{(2)} z_{j} \\
&=\delta_{k} z_{j}
\end{aligned}
これより
\begin{aligned}
\frac{\partial^{2} E_{n}}{\partial w_{k j}^{(2)} \partial w_{k^{\prime} j^{\prime}}^{(2)}} &= \frac{\partial}{\partial w_{k^{\prime} j^{\prime}}^{(2)}}\left( \frac{\partial E_{n}}{\partial w_{kj}^{(2)}} \right) \\
&= \frac{\partial}{\partial w_{k^{\prime} j^{\prime}}^{(2)}}(\delta_k z_j) \\
&= z_{j} \frac{\partial \delta_{k}}{\partial w_{k^{\prime} j^{\prime}}^{(2)}} \\
&= z_{j} \frac{\partial^{2} E_{n}}{\partial a_{k} \partial a_{k^{\prime}}} \frac{\partial a_{k}}{\partial w_{k^{\prime} j^{\prime}}^{(2)}} \\
&= z_{j} z_{j^{\prime}} M_{k k^{\prime}}
\end{aligned}
となる。
演習 5.23
2層ネットワークの正確なヘッセ行列に関する5.4.5節の結果を,入力から出力へ直接つながる,層を飛び越えた結合を含むように拡張せよ.
5.4.5節の1〜3のブロックに、新たに直接つながる重みを加えて考える。入力層から出力層につながる重みなので、これをw_{ki}^{\circ}とする
\begin{aligned}
\frac{\partial^2 E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ} \partial w_{ji}^{(1)}}&=\frac{\partial E_n}{\partial w^{\circ}_{k^{\prime} i^{\prime}}}\left(\frac{\partial E_n}{\partial w_{ji}^{(1)}}\right) \\
& =\sum_k \frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial a_k} \cdot \frac{\partial a_k}{\partial z_j} \cdot \frac{\partial z_j}{\partial a_j} \cdot \frac{\partial a_j}{\partial w_{ji}^{(1)}}\right) \\
& =\sum_k \frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial a_k} \cdot w_{k j}^{(2)} \cdot h^{\prime}\left(a_j\right) \cdot x_i\right) \\
& =\sum_k w_{k j}^{(2)} h^{\prime}\left(a_j\right) x_i \frac{\partial E_n}{\partial a_{k^{\prime}}}\left(\frac{\partial E_n}{\partial a_k}\right) \frac{\partial a_{k^{\prime}}}{\partial w_{k^{\prime}i^{\prime}}^{\circ}} \\
& =\sum_k w_{k j}^{(2)} h^{\prime}\left(a_j\right) x_i M_{k k^{\prime}} x_{i^{\prime}} \quad \cdots (\textrm{A}) \quad \because a_{k^{\prime}}=\sum_{i^{\prime}}w_{k^{\prime}i^{\prime}}^{\circ}x_{i^{\prime}}
\end{aligned}
次にw_{ki}^{\circ}と第2層の重みw_{kj}^{(2)}との組み合わせを考える。
\begin{aligned}
\frac{\partial^2 E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ} \partial w_{kj}^{(2)}}&=\frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial w_{k j}^{(2)}}\right) \\
& =\frac{\partial E_{n}}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_{n}}{\partial a_k} \cdot \frac{\partial a_k}{\partial w_{k_j}^{k^{\prime}}}\right)=\frac{\partial E_{n}}{\partial a_{k^{\prime}}}\left(\frac{\partial E_{n}}{\partial a_k} \cdot z_j\right) \frac{\partial a_{k^{\prime}}}{\partial w_{k^{\prime}i^{\prime}}^{\circ}} \\
& =M_{k k^{\prime}} z_j x_{i^{\prime}} \quad \cdots (\textrm{B})
\end{aligned}
最後に、w_{ki}^{\circ}同士の組み合わせを考える。
\begin{aligned}
\frac{\partial^2 E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ} \partial w_{k i}^{\circ}} & =\frac{\partial E_n}{\partial w_{k^{\prime} i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial w_{k i}^{\circ}}\right)=\frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial a_k} \cdot \frac{\partial a_k}{\partial w_{k i}^{\circ}}\right) \\
& =\frac{\partial E_n}{\partial a_{k^{\prime}}}\left(\frac{\partial E_n}{\partial a_k} \cdot x_i\right) \frac{\partial a_{k^{\prime}}}{\partial w_{k^{\prime} i^{\prime}}^{\circ}} \\
& =M_{k k^{\prime}} x_i x_{i^{\prime}} \quad \cdots (\textrm{C})
\end{aligned}
以上から5.4.5節の1〜3と(A)〜(C)のブロックを加えたものがヘッセ行列になる。
演習 5.24
入力への変換
x_{i} \rightarrow \widetilde{x}_{i}=a x_{i}+b \tag{5.115}
の下で,重みとバイアスが
w_{j i} \rightarrow \widetilde{w}_{j i}=\frac{1}{a} w_{j i} \tag{5.116}
と
w_{j 0} \rightarrow \widetilde{w}_{j 0}=w_{j 0}-\frac{b}{a} \sum_{i} w_{j i} \tag{5.117}
を用いて同時に変換されれば,
z_{j}=h\left(\sum_{i} w_{j i} x_{i}+w_{j 0}\right) \tag{5.113}
と
y_{k}=\sum_{j} w_{k j} z_{j}+w_{k 0} \tag{5.114}
で定義されたネットワーク関数は不変であることを確かめよ.同様に,ネットワーク出力は
w_{k j} \rightarrow \widetilde{w}_{k j}=c w_{k j} \tag{5.119}
と
w_{k 0} \rightarrow \widetilde{w}_{k 0}=c w_{k 0}+d \tag{5.120}
の変換を第2層の重みとバイアスに施すことにより,
y_{k} \rightarrow \widetilde{y}_{k}=c y_{k}+d \tag{5.118}
に従って変換できることを示せ.
(前半)x_i \to \tilde{x}_i, w_{ji} \to \tilde{w}_{ji}, w_{j0} \to \tilde{w}_{j0}が同時に満たされれば、z_jとy_kが不変であることを示せばよい。
\begin{aligned}
h\left(\sum_{i} \tilde{w}_{j i} \tilde{x_{i}}+\tilde{w}_{j 0}\right) &= h\left(\sum_{i}\left(\frac{1}{a} w_{j i}\right)\left(a x_{i}+b\right)+\left(w_{j0}-\frac{b}{a} \sum_{i} w_{j i}\right)\right) \\
&= h\left(\sum_{i} w_{j i} x_{i}+w_{j 0}\right) \\
&= z_{j}
\end{aligned}
\sum_{j}\tilde{w}_{kj} \tilde{z_{j}}+\tilde{w}_{k 0}について、入力の変換\tilde{z}_j = az_{j}+bを行う。
\begin{aligned}
\sum_{j}\tilde{w}_{kj} \tilde{z_{j}}+\tilde{w}_{k 0} &=\sum_{j}\left(\frac{1}{a} w_{k j}\left(a z_{j}+b\right)\right)+\left(w_{k 0}-\frac{b}{a} \sum_{j} w_{k j}\right) \\
&=\sum_{j} w_{k j}+w_{k 0} \\
&=y_{k}
\end{aligned}
以上からz_jとy_kが不変であることが示された。
(後半)
(5.114)式の右辺についてw_{k j} \rightarrow \widetilde{w}_{k j}, w_{k 0} \rightarrow \widetilde{w}_{k 0}とすると
\begin{aligned}
\sum_{j} \tilde{w}_{k j} z_{j}+\tilde{w}_{k 0} &= \sum_{j}\left(c w_{k j}\right) z_{j}+c w_{k 0}+d \\
&= c\left(\sum_{j} w_{k j} z_{j}+w_{k 0}\right)+d \\
&= c y_{k}+d
\end{aligned}
より、(5.118)式の変換が成立することが示された。
演習 5.25
(難問)二次誤差関数
E=E_{0}+\frac{1}{2}\left(\mathbf{w}-\mathbf{w}^{*}\right)^{\mathrm{T}} \mathbf{H}\left(\mathbf{w}-\mathbf{w}^{*}\right) \tag{5.195}
を考える.ただし,\mathbf{w}^{\star}は最小値を表し,ヘッセ行列\mathbf{H}は正定値で定数とする.重みベクトルは初期値\mathbf{w}^{(0)}が原点であり,単純な勾配降下法
\mathbf{w}^{(\tau)}=\mathbf{w}^{(\tau-1)}-\rho \nabla E \tag{5.196}
によって更新されるとしよう.ただし,\tauはステップ数,\rhoは学習率(小さいと仮定)を表す.\tauステップ後に,\mathbf{H}の固有ベクトルに平行な重みベクトルの成分は
w_{j}^{(\tau)}=\left\{1-\left(1-\rho \eta_{j}\right)^{\tau}\right\} w_{j}^{\star} \tag{5.197}
と書けることを示せ.ただし,w_j = \mathbf{w}^{\mathrm T}\mathbf{u}_j,\mathbf{u}_jと\eta_jはそれぞれ\mathbf{H}の固有ベクトルと固有値で,
\mathbf{H}\mathbf{u}_j = \eta_{j}\mathbf{u}_j \tag{5.198}
とする.もし|1-\rho\eta_j|<1ならば,\tau \to \inftyにおいて期待通り\mathbf{w}^{(\tau)}\to \mathbf{w}^{\star}が与えられることを示せ.もし訓練が有限ステップ数\tauで止まったなら,ヘッセ行列の固有ベクトルに平行な重みベクトルの成分は
w_{j}^{(\tau)} \simeq w_{j}^{\star} \left(\eta_{j} \gg(\rho \tau)^{-1}\right) \tag{5.199}
\left|w_{j}^{(r)}\right| \ll\left|w_{j}^{\star}\right| \left(\eta_{j} \ll(\rho \tau)^{-1}\right) \tag{5.200}
を満たすことを示せ.この結果を,3.5.3節での単純な荷重減衰による正則化の議論と比較し,(\rho\tau)^{-1}が正則化パラメータ\lambda_{i}に相当することを示せ.上の結果は
\tau=\sum_{i} \frac{\lambda_{i}}{\alpha+\lambda_{i}} \tag{3.91}
で定義されるネットワークの有効パラメータ数が,訓練が進むにつれて増加することも示している.
誤差関数の式(5.195)からヘッセ行列の計算を行う。微分すると
\nabla E=\mathbf{H}\left(\mathbf{w}-\mathbf{w}^{\star}\right)
なので、(5.196)式に代入すれば
\mathbf{w}^{(\tau)}=\mathbf{w}^{(\tau-1)}-\rho \mathbf{H}\left(\mathbf{w}^{(\tau-1)}-\mathbf{w}^{\star}\right)
\mathbf{H}の固有ベクトル\mathbf{u}_jを使い、w_j^{(\tau)} = \mathbf{u}_j^{\mathrm{T}}\mathbf{w}^{(\tau)}を用いると
\begin{aligned}
w_{j}^{(\tau)} &=\mathbf{u}_{j}^{\mathrm{T}} \mathbf{w}^{(\tau)} \\
&=\mathbf{u}_{j}^{\mathrm{T}} \mathbf{w}^{(\tau-1)}-\rho \mathbf{u}_{j}^{\mathrm{T}} \mathbf{H}\left(\mathbf{w}^{(\tau-1)}-\mathbf{w}^{\star}\right) \\
&=w_{j}^{(r-1)}-\rho \eta_{j} \mathbf{u}_{j}^{\mathrm{T}}\left(\mathbf{w}-\mathbf{w}^{\star}\right) \\
&=w_{j}^{(\tau-1)}-\rho \eta_{j}\left(w_{j}^{(\tau-1)}-w_{j}^{\star}\right)
\end{aligned} \tag{*}
となる。
この式をもとに、数学的帰納法を用いてすべての整数\tauについて(5.197)式が成立することを示す。
まず\tau=0について
w_j^{(0)} = \{ 1- (1-\rho\eta_j)^0\}w_j^{\star} = 0
初期座標が\mathbf{0}なので成立している。次に\tau=1について(*)の結果を用いると
\begin{aligned}
w_{j}^{(1)} &=w_{j}^{(0)}-\rho \eta_{j}\left(w_{j}^{(0)}-w_{j}^{\star}\right) \\
&=\rho \eta_{j} w_{j}^{*} \\
&=\left\{1-\left(1-\rho \eta_{j}\right)\right\} w_{j}^{\star}
\end{aligned}
これは(5.197)式に\tau=1を代入したものと同じになるので\tau=1のときにも成立することが示された。
次に\tau= N-1で(5.197)式が成立すると仮定したとき、\tau=Nにおいて
\begin{aligned}
w_{j}^{(N)} &=w_{j}^{(N-1)}-\rho \eta_{j}\left(w_{j}^{(N-1)}-w_{j}^{\star}\right) \\
&=w_{j}^{(N-1)}\left(1-\rho \eta_{j}\right)+\rho \eta_{j} w_{j}^{\star} \\
&=\left\{1-\left(1-\rho \eta_{j}\right)^{N-1}\right\} w_{j}^{*}\left(1-\rho \eta_{j}\right)+\rho \eta_{j} w_{j}^{*} \\
&=\left\{\left(1-\rho \eta_{j}\right)-\left(1-\rho \eta_{j}\right)^{N}\right\} w_{j}^{\star}+\rho \eta_{j} w_{j}^{*} \\
&=\left\{1-\left(1-\rho \eta_{j}\right)^{N}\right\} w_{j}^{\star}
\end{aligned}
となり、\tau=Nのときにも成立することが示された。
上式から|1-\rho \eta_j| < 1ならば(1-\rho \eta_j)^N \to 0となるため、\tau \to \inftyにてw_j^{(\tau)} = w^{(\star)}つまり\mathbf{w}^{(\tau)} = \mathbf{w}^{(\star)}が与えられる。
\tauが有限で\eta_j \gg (\rho\tau)^{-1}というのは\eta_j \rho \tau \gg 1を満たすので、\tauがとても大きい状態に相当する。これは上の議論からw_j^{(\tau)} \simeq w^{(\star)}となる。
\eta_j \ll (\rho\tau)^{-1}すなわち\eta_j\rho\tau \ll 1ならば、\tauが整数であることから\rho\eta_j \ll 1の状況であることが求められる。これより
(1-\rho\eta_j)^{\tau} = 1-\tau\rho\eta_j + O(\rho^2\eta_j^2)
とテイラー展開してみると
\begin{aligned}
\left|w_{j}^{(\tau)}\right| &=\left|\left\{1-\left(1-\rho \eta_{j}\right)^{\tau}\right\} w_{j}^{\star}\right| \\
&=\left|\left\{1-\left(1-\tau \rho \eta_{j}+O\left(\rho^{2} \eta_{j}^{2}\right)\right)\right\} w_{j}^{\star}\right| \\
& \simeq \tau \rho \eta_{j}\left|w_{j}^{\star}\right|
\end{aligned}
となり、これは|w_j^{(\tau)}|\ll\left|w_{j}^{\star}\right|となる。
3.5.3節の議論から、この節で\alphaとされていた正則化パラメータが固有ベクトルの1つ\lambda_iよりもとても大きな値(\lambda_i \ll \alpha)のとき、対応するw_iの値は0に近くなる。反対に\lambda_i \gg \alphaならばw_iは最尤推定値に最も近くなる。このことから、\alphaは(\rho\tau)^{-1}の役割ととても似ていることがわかる。
演習 5.26
任意のフィードフォワード構造を持つ多層パーセプトロンを考える.ここで訓練には,正則化関数として
\Omega=\frac{1}{2} \sum_{n} \sum_{k}\left(\left.\frac{\partial y_{n k}}{\partial \xi}\right|_{\xi=0}\right)^{2}=\frac{1}{2} \sum_{n} \sum_{k}\left(\sum_{i=1}^{D} J_{n k i} \tau_{n i}\right)^{2} \tag{5.128}
を持つ接線伝播誤差関数
\widetilde{E} = E + \lambda\Omega \tag{5.127}
の最小化を用いる.正則化項\Omegaが,全パターンについて
\Omega_{n}=\left. \frac{1}{2} \sum_{k}\left(\mathcal{G} y_{k}\right)^{2}\right|_{\mathbf{x}_n} \tag{5.201}
という形の項を足し合わせたもので書けることを示せ.ここで\mathcal{G}は
\mathcal{G} \equiv \sum_{i} \tau_{i} \frac{\partial}{\partial x_{i}} \tag{5.202}
で定義される微分演算子である.演算子\mathcal{G}と順伝播方程式
z_{j}=h\left(a_{j}\right), \quad a_{j}=\sum_{i} w_{j i} z_{i} \tag{5.203}
を利用し,\Omega_nが
\alpha_{j}=h^{\prime}\left(a_{j}\right) \beta_{j}, \quad \beta_{j}=\sum_{i} w_{j i} \alpha_{i} \tag{5.204}
という方程式を用いた順伝播によって評価できることを示せ.ただし
\alpha_{j} \equiv \mathcal{G} z_{j}, \quad \beta_{j} \equiv \mathcal{G} a_{j} \tag{5.205}
と定義した.上の結果を用いて,\Omega_nのネットワーク内の重みw_{rs}に関する微分が
\frac{\partial \Omega_{n}}{\partial w_{r s}}=\sum_{k} \alpha_{k}\left\{\phi_{k r} z_{s}+\delta_{k r} \alpha_{s}\right\} \tag{5.206}
という形で書けることを示せ.ただし
\delta_{k r} \equiv \frac{\partial y_{k}}{\partial a_{r}}, \quad \phi_{k r} \equiv \mathcal{G} \delta_{k r} \tag{5.207}
と定義した.\delta_{kr}についての逆伝播方程式を書き下し,\phi_{kr}を評価するための逆伝播方程式系を導け.
※ この問題では、厳密にはある1つの入力\mathbf{x}_nに依存する正則化項\Omega_{n}を考える必要があるので、(5.201)など必要に応じて下付き文字nをつけて考えることにする(が、実際に問題を解く上ではあまり影響はない)
(5.201)式について(5.202)式を用いて書き表すと
\begin{aligned}
\Omega_{n} &=\left.\frac{1}{2} \sum_{k}\left(\sum_{i} \tau_{n i} \frac{\partial y_{nk}}{\partial x_{n i}}\right)^{2}\right|_{\mathbf{x}_{n}} \\
&=\left.\frac{1}{2} \sum_{k}\left(\sum_{i=1}^{D} J_{nki} \tau_{n i}\right)^{2}\right|_{\mathbf{x}_{n}}
\end{aligned}
すべてのnについて足し合わせると
\sum_{n} \Omega_{n}=\frac{1}{2} \sum_{n} \sum_{k}\left(\sum_{i=1}^{D} J_{n k i} \tau_{n i}\right)^{2}
となり、(5.128)式を得ることができる。
(5.204)式について
\begin{aligned}
\alpha_{j}=\mathcal{G} z_{j} &=\sum_{i} \tau_{i} \frac{\partial}{\partial x_{i}} h\left(a_{j}\right) \\
&=\sum_{i} \tau_{i} \frac{\partial h\left(a_{i}\right)}{\partial a_{j}} \frac{\partial}{\partial x_{i}} a_{i} \\
&=h^{\prime}\left(a_{j}\right) \mathcal{G} a_{j} \\
&=h^{\prime}\left(a_{j}\right) \beta_{j} \\
\beta_{j}=\mathcal{G} a_{j} &=\sum_{i} \tau_{i} \frac{\partial}{\partial x_{i}} \sum_{l} w_{j l} z_{l} \\
&=\sum_{l} w_{jl}\left(\sum_{i} r_{i} \frac{\partial}{\partial x_{i}} z_{l}\right) \\
&=\sum_{l} w_{jl} \mathcal{G}z_{l} \\
&=\sum_{l} w_{jl} \alpha_{l}
\end{aligned}
より、(5.204)式が示された。また、インプット層について計算をさらに進めると
\begin{aligned}
\beta_{n j} &=\sum_{l} w_{j l} \alpha_{n l} \\
&=\sum_{l} w_{jl} \mathcal{G} x_{n l} \\
&=\sum_{l} w_{jl} \sum_{l^{\prime}} \tau_{nl^{\prime}} \frac{\partial x_{nl}}{\partial x_{n l^{\prime}}} \\
&=\sum_{l} w_{jl} \tau_{nl}
\end{aligned}
となり\tau_{n}が(5.204)式によって順伝播していることが示された。
(5.206)式について
\begin{aligned}
\frac{\partial \Omega_{n}}{\partial w_{r s}} &=\frac{1}{2} \frac{\partial}{\partial w_{rs}} \sum_{k}\left(\mathcal{G}y_{n k}\right)^{2} \\
&=\sum_{k}\left(\mathcal{G}y_{n k}\right) \frac{\partial}{\partial w_{r s}} \mathcal{G} y_{n k} \\
&=\sum_{k} \alpha_{n k} \frac{\partial}{\partial w_{r s}} \sum_{i} \tau_{i} \frac{\partial}{\partial x_{n i}} y_{n k} \\
&=\sum_{k} \alpha_{n k} \sum_{i} \tau_{i} \frac{\partial}{\partial x_{n i}}\left(\frac{\partial}{\partial w_{r s}} y_{n k}\right) \\
&=\sum_{k} \alpha_{n k}\left( \mathcal{G} \left(\delta_{nkr} z_{n s}\right)\right) \quad \left( \because \frac{\partial y_{n k}}{\partial w_{r s}}=\frac{\partial y_{n k}}{\partial a_{n r}} \frac{\partial a_{n r}}{\partial w_{r s}}=\delta_{nkr} z_{ns} \quad (\textrm{eq}\ 5.52)\right)\\
&=\sum_{k} \alpha_{n k}\left( (\mathcal{G} \delta_{n k r}) z_{n s}+\delta_{n k r}\left(\mathcal{G} z_{n s}\right)\right) \\
&=\sum_{k} \alpha_{n k}\left\{\phi_{n k r} z_{n s}+\delta_{nkr} \alpha_{n s}\right\}
\end{aligned}
\delta_{nkr}についての逆伝播方程式は
\begin{aligned}
\delta_{nkr} \equiv \frac{\partial y_{nk}}{\partial a_{n r}} &=\sum_{l} \frac{\partial y_{n k}}{\partial a_{n l}} \frac{\partial a_{n l}}{\partial a_{n r}} \\
&=\sum_{l} \frac{\partial y_{n k}}{\partial a_{n l}} \frac{\partial}{\partial a_{n r}}\left(\sum_{r} w_{lr} h\left(a_{n r}\right)\right) \\
&=h^{\prime}(a_{nr})\sum_{l}w_{lr}\frac{\partial y_{nk}}{\partial a_{nl}} \\
&=h^{\prime}(a_{nr})\sum_{l}w_{lr}\delta_{nkl}
\end{aligned}
となり、これを用いた\phi_{nkr}を評価する逆伝播方程式は
\begin{aligned}
\phi_{n k r} \equiv \mathcal{G} \delta_{n k r} &=\sum_{i} r_{i} \frac{\partial}{\partial x_{i}}\left(h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \delta_{n k l}\right) \\
&=\sum_{i} \tau_{i}\left\{\left(\frac{\partial}{\partial x_{i}} h^{\prime}\left(a_{n r}\right)\right) \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right)\left(\frac{\partial}{\partial x_{i}} \sum_{l} w_{lr} \delta_{n k l}\right)\right\} \\
&=\sum_{i} \tau_{i}\left(h^{\prime \prime}\left(a_{n r}\right) \frac{\partial a_{n r}}{\partial x_{i}}\right) \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \mathcal{G} \delta_{nkl} \\
&=h^{\prime \prime}\left(a_{n r}\right) \mathcal{G} a_{n r} \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \mathcal{G} \delta_{nkl} \\
&=h^{\prime \prime}\left(a_{n r}\right) \beta_{n r} \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \mathcal{G} \delta_{nkl}
\end{aligned}
と書き下せる。
演習 5.27
変換がランダムノイズの加算\mathbf{x}\to\mathbf{x}+\boldsymbol{\xi}のみであるという特別な場合について,変換されたデータを訓練する枠組みを考える.ただし,\boldsymbol{\xi}は平均がゼロ,分散が単位行列のガウス分布を持つとする.5.5.5節での議論と類似の議論に従って,結果として得られる正則化項はTikhonov正則化項
\Omega=\frac{1}{2} \int\|\nabla y(\mathbf{x})\|^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x} \tag{5.135}
に帰着することを示せ.
※ \mathbf{s}(\mathbf{x},\boldsymbol{\xi}) = \mathbf{x} + \boldsymbol{\xi}である特別な場合において5.5.5節の議論を展開する。(5.130)式に導入して\Omegaを計算すれば良いのだが、ベクトルの場合のテイラー展開などを丁寧に考える必要があるので計算は大変……というか難しすぎる?
まずy(\mathbf{s}(\mathbf{x},\boldsymbol{\xi})) = y(\mathbf{x}+\boldsymbol{\xi})を\boldsymbol{\xi}でテイラー展開すると
y(\mathbf{x}+\boldsymbol{\xi}) = y(\mathbf{x}) + \nabla y(\boldsymbol{x})\boldsymbol{\xi} + \frac{1}{2}\boldsymbol{\xi}^{\mathrm{T}}\nabla \nabla y(\mathbf{x}) \boldsymbol{\xi}+O(\boldsymbol{\xi}^3)
ここで、\nabla y(\mathbf{x})は\frac{\partial y}{\partial \xi_i}を成分とする行ベクトル(なので\nabla y(\boldsymbol{x})\boldsymbol{\xi}はスカラー値)である。これより
\begin{aligned}
\{y(\mathbf{x}+\boldsymbol{\xi})-t\}^{2} &=\left\{(y(\mathbf{x})-t)+\nabla y(\mathbf{x}) \boldsymbol{\xi}+\frac{1}{2} \boldsymbol{\xi}^{\mathrm{T}} \nabla \nabla y(\mathbf{x}) \boldsymbol{\xi}+O\left(\boldsymbol{\xi}^{3}\right)\right\}^{2} \\
&=(y(\mathbf{x})-t)^{2}+(\nabla y(\mathbf{x}) \boldsymbol{\xi})^{2}+2 \nabla y(\mathbf{x}) \boldsymbol{\xi}(y(\mathbf{x})-t) +\boldsymbol{\xi}^{\mathrm{T}} \nabla \nabla y(\mathbf{x}) \boldsymbol{\xi}(y(\mathbf{x})-t)+O(\boldsymbol{\xi}^{3})
\end{aligned}
となる。
この式と、以下の計算
\begin{aligned}
(\nabla y(\mathbf{x}) \boldsymbol{\xi})^{2} &=\boldsymbol{\xi}^{\mathrm{T}} \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x}) \boldsymbol{\xi}\\
\int \boldsymbol{\xi} p(\boldsymbol{\xi}) d \boldsymbol{\xi} &=\mathbb{E}[\boldsymbol{\xi}]=0, \int p(\boldsymbol{\xi}) d \boldsymbol{\xi}=1
\end{aligned}
を用いて(5.130)式に代入すると
\begin{aligned}
\tilde{E} &= \frac{1}{2} \iint\{y(\mathbf{x})-t\}^{2} p(t \mid \mathbf{x}) p(\mathbf{x}) \int p(\boldsymbol{\xi}) d \boldsymbol{\xi} d \mathbf{x} d t + \iiint \nabla y(\mathbf{x})\boldsymbol{\xi} p(\boldsymbol{\xi}) d \boldsymbol{\xi} (y(\mathbf{x})-t) p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t \\
&+\frac{1}{2} \iiint \boldsymbol{\xi}^{\mathrm{T}} \nabla \nabla y(\mathbf{x})(y(\mathbf{x})-t) \boldsymbol{\xi} p(t \mid \mathbf{x})p(\mathbf{x}) d \mathbf{x} d t d \boldsymbol{\xi} \\
&+\frac{1}{2} \iiint \boldsymbol{\xi}^{\mathrm{T}} \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x}) \boldsymbol{\xi} p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t d \boldsymbol{\xi} \\
&= \frac{1}{2} \iint\{y(\mathbf{x})-t\}^{2} p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t + \mathbb{E}[\boldsymbol{\xi}] \iiint \nabla y(\mathbf{x})(y(\mathbf{x})-t) p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t \\
&+ \frac{1}{2}\iiint \boldsymbol{\xi}^{\mathrm{T}} \left[ (y(\mathbf{x})-t)\nabla \nabla y(\mathbf{x}) + \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(t \mid \mathbf{x}) p(\mathbf{x}) p(\boldsymbol{\xi}) d \mathbf{x} dt d \boldsymbol{\xi} \\
&\equiv E + \Omega
\end{aligned}
となる(これ正則化係数\lambdaがないけれどいいんですかね?)。ここで、Eはもとの二乗和誤差関数であり、\Omegaは
\begin{aligned}
\Omega &= \frac{1}{2}\iiint \boldsymbol{\xi}^{\mathrm{T}} \left[ (y(\mathbf{x})-t)\nabla \nabla y(\mathbf{x}) + \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} dt d \boldsymbol{\xi} \\
&= \frac{1}{2}\iint \boldsymbol{\xi}^{\mathrm{T}} \left[ \left\{ y(\mathbf{x})-\mathbb{E}[t\mid \mathbf{x}]\right\}\nabla \nabla y(\mathbf{x}) + \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(\mathbf{x}) d \mathbf{x} d \boldsymbol{\xi}\end{aligned}
で与えられる関数である。
ここで、1.5.5節の議論と(5.133)の式から正則化項\Omegaの括弧内の第1項は
y(\mathbf{x})-\mathbb{E}[t\mid \mathbf{x}] = O(\boldsymbol{\xi})
となるのに対し、\OmegaはO(\boldsymbol{\xi}^3)の項を無視していることから、上の\Omegaで残るのは
\Omega \simeq \frac{1}{2}\iint \boldsymbol{\xi}^{\mathrm{T}} \left[ \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(\mathbf{x}) d \mathbf{x} d \boldsymbol{\xi}
となり、これは
\begin{aligned}
\Omega & \simeq \frac{1}{2} \iint \boldsymbol{\xi}^{\mathrm{T}}\left(\nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right) \boldsymbol{\xi} p(\boldsymbol{\xi}) p(\mathbf{x}) \mathrm{d} \boldsymbol{\xi} \mathrm{d} \mathbf{x} \\
&=\frac{1}{2} \iint \operatorname{Tr}\left[\left(\boldsymbol{\xi} \boldsymbol{\xi}^{\mathrm{T}}\right)\left(\nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right)\right] p(\boldsymbol{\xi}) p(\mathbf{x}) \mathrm{d} \boldsymbol{\xi} \mathrm{d} \mathbf{x} \\
&=\frac{1}{2} \int \operatorname{Tr}\left[\mathbf{I}\left(\nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right)\right] p(\mathbf{x}) \mathrm{d} \mathbf{x} \\
&=\frac{1}{2} \int \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x}) p(\mathbf{x}) \mathrm{d} \mathbf{x}=\frac{1}{2} \int\|\nabla y(\mathbf{x})\|^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}
\end{aligned}
となる。ここで、\boldsymbol{\xi}が平均\mathbf{0},分散が単位行列のガウス分布なので(2.62)式から\mathbb{E}(\boldsymbol{\xi} \boldsymbol{\xi}^{\mathrm{T}}) = \mathbf{I}となることを用いた。
演習 5.28
5.5.6節で議論したたたみ込みニューラルネットワークのような,複数の重みが同じ値を持つように制約されているニューラルネットワークを考える.そのような制約条件を満たすためには,ネットワーク内の調整可能なパラメータに関する誤差関数の微分を評価する際に,標準的な逆伝播アルゴリズムをどのように変更しなければならないかを議論せよ.
P.270の畳み込みニューラルネットワークでは、局所的受容野を用いることで、それぞれの特徴マップのユニットは画像の小さな部分領域だけから入力を受け、同じ特徴マップに属するユニットはすべて同一の重みの値を共有するように制約される。
この修正は畳み込み層の重みに関する導関数にのみ影響する。特徴マップ内のユニット(インデックスm)は異なる入力を持つが、すべて共通の重みベクトル\mathbf{w}^{(m)}を共有する。したがって、特徴マップ内のすべてのユニットからの誤差\delta^{(m)}は、対応する重みベクトルの導関数に寄与する。この状況では、(5.50)-(5.53)の記述
\frac{\partial E_n}{\partial w_{j i}}=\frac{\partial E_n}{\partial a_j} \frac{\partial a_j}{\partial w_{j i}}=\delta_{j}z_{i}
は
\frac{\partial E_n}{\partial w_i^{(m)}}=\sum_j \frac{\partial E_n}{\partial a_j^{(m)}} \frac{\partial a_j^{(m)}}{\partial w_i^{(m)}}=\sum_j \delta_j^{(m)} z_{j i}^{(m)} \tag{A}
のように書き換えられる。ここで、a_{j}^{(m)}はm番目の特徴マップの中のj番目のactivation、w_i^{(m)}は対応する特徴量ベクトルのi番目の要素、そしてz_{j i}^{(m)}はm番目の特徴マップの中のj番目のユニットのi番目のインプットを、それぞれ表している。後者z_{j i}^{(m)}は実際のインプットまたはひとつ前のレイヤーの出力である。
\displaystyle \delta_{j}^{(m)} = \frac{\partial E_n}{\partial a_j^{(m)}}は通常、
\delta_{j}^{(m)} \equiv \frac{\partial E_n}{\partial a_j^{(m)}}=\sum_k \frac{\partial E_n}{\partial a_k^{(m)}} \frac{\partial a_k^{(m)}}{\partial a_j^{(m)}} \tag{5.55}
を用いて、次の層のユニットの\deltaから再帰的に計算されることに注意する。つまり、
\frac{\partial E_n}{\partial w_i^{(m)}}=\sum_j \frac{\partial E_n}{\partial a_j^{(m)}} \frac{\partial a_j^{(m)}}{\partial w_i^{(m)}}=\sum_j \sum_k \frac{\partial E_n}{\partial a_k^{(m)}} \frac{\partial a_k^{(m)}}{\partial a_j^{(m)}} z_{j i}^{(m)}
となるはずである。しかし、畳み込みニューラルネットワークの場合はこの重みをすべて同一の重みとして扱えるように制約をいれるようにしている、すなわち、前の層のユニットの\deltaを計算するときにこの重みを独立したパラメータであるかのように扱って計算することができる。これによって、(A)のように計算することができ、ネットワークの重みと,データから訓練すべき独立パラメータの数を少なくしている。
演習 5.29
\frac{\partial \widetilde{E}}{\partial w_{i}}=\frac{\partial E}{\partial w_{i}}+\lambda\sum_{j} \gamma_{j}\left(w_{i}\right) \frac{\left(w_{i}-\mu_{j}\right)}{\sigma_{j}^{2}} \tag{5.141}
の結果を確かめよ.
※テキストの(5.141)式では\lambdaが抜けている誤植がある。(5.142),(5.143)も同様。
(5.139)を用いるが、(5.139)式は(5.138)式に依存しているので先に(5.138)式のw_iについての微分を取る。このとき、(1.46)式の微分を先に計算しておく。
\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\} \tag{1.46}
の微分形は
\frac{\partial \mathcal{N}}{\partial x}=-\frac{(x-\mu)}{\sigma^{2}} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)
である。
\Omega(\mathbf{w})=-\sum_{i} \ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right) \tag{5.138}
のw_iについての微分を取ると
\begin{aligned}
\frac{\partial \Omega}{\partial w_{i}} &= \frac{-1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid u_{k}, \sigma_{k}^{2}\right)} \sum_{j=1}^{M} \pi_{j} \left(\frac{\partial \mathcal{N}\left(w_{i} \mid \mu_{i}, \sigma_{j}^{2}\right)}{\partial w_{i}}\right) \\
&= \frac{1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)} \sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right) \frac{\left(w_{i}-\mu_{j}\right)}{\sigma^{2}}
\end{aligned}
これを\tilde{E}(\mathbf{w})=E(\mathbf{w})+\lambda \Omega(\mathbf{w})\hspace{1em}(5.139)式の微分形
\frac{\partial \widetilde{E}}{\partial w_{i}}=\frac{\partial E}{\partial w_{i}}+\lambda \frac{\partial \Omega}{\partial w_{i}}
に代入すると
\frac{\partial \widetilde{E}}{\partial w_{i}}=\frac{\partial E}{\partial w_{i}}+\lambda\sum_{j} \gamma_{j}\left(w_{i}\right) \frac{\left(w_{i}-\mu_{j}\right)}{\sigma_{j}^{2}},\ \textrm{where}\ \gamma_{j}(w_{i})=\frac{\pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}{\sum_{k} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)} \tag{5.141}
が得られる。
演習 5.30
\frac{\partial \widetilde{E}}{\partial \mu_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right) \frac{\left(\mu_{j}-w_{i}\right)}{\sigma_{j}^{2}} \tag{5.142}
の結果を確かめよ.
※テキストの(5.142)でも\lambdaが抜けている誤植があるので注意。
\mu_jはEの項には現れず\Omega(\mathbf{w})の項にのみ現れるので、(5.139)式の微分は
\frac{\partial \widetilde{E}}{\partial \mu_j}=\lambda \frac{\partial \Omega}{\partial \mu_j}
となる。(5.138)式の\mu_jについての微分は
\begin{aligned}
\frac{\partial \Omega}{\partial \mu_{j}} &=-\sum_{i} \frac{1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k} \sigma_{k}^{2}\right)} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right) \frac{w_{i}-\mu_{j}}{\sigma_{j}^{2}} \\
&=-\sum_{i} \gamma_{j}\left(w_{i}\right) \frac{w_{i}-\mu_{j}}{\sigma_{j}^{2}}
\end{aligned}
よって
\frac{\partial \widetilde{E}}{\partial \mu_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right) \frac{\left(\mu_{j}-w_{i}\right)}{\sigma_{j}^{2}} \tag{5.142}
を得る。
演習 5.31
\frac{\partial \tilde{E}}{\partial \sigma_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right) \tag{5.143}
の結果を確かめよ.
※ 演習問題 5.29, 5.30と同様。テキストの(5.143)でも\lambdaが抜けている誤植があるので注意。
(5.139)より \tilde{E}(\mathbf{w}) = E (\mathbf{w}) + \lambda \Omega(\mathbf{w})
(5.138)より \Omega(\mathbf{w}) = - \Sigma_i \ln (\Sigma_{j=1}^M \pi_j \mathcal{N} (w_j|µ_j,\sigma_j^2))
\frac{\partial E(\mathbf{w})}{\partial \sigma_j}=0 なので
\begin{align}
\frac{\partial \tilde E(\mathbf{w})}{\partial \sigma_j} &= \lambda\frac{\partial \Omega }{\partial \sigma_j}\\
&= \lambda\frac{\partial}{\partial \sigma_j} (- \Sigma_i \ln (\Sigma_{j=1}^M \pi_j \mathcal{N} (w_j|µ_j,\sigma_j^2))) \\
\end{align}
ガウス分布について
\mathcal{N}(x|µ, \sigma) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp -\frac{(x-µ)^2}{2\sigma^2}
であるので
\begin{aligned}
\frac{\partial \mathcal{N}}{\partial \sigma_{j}} &=(2 \pi)^{-\frac{1}{2}}\left[-\sigma_{j}^{-2} \exp \left\{-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right\}+\sigma_{j}^{-1} \sigma_{j}^{-3}\left(w_{i}-\mu_{j}\right)^{2}\exp \left\{-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right\} \right]\\
&=(2 \pi)^{-\frac{1}{2}}\left(-\sigma_{j}^{-2}+\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{-4}}\right) \exp \left\{-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right\} \\
&=-\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right) \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)
\end{aligned}
より、
\begin{aligned}
\frac{\partial \Omega}{\partial \sigma_{j}} &=-\sum_{i} \frac{1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)} \pi_{j} \frac{\partial \mathcal{N}}{\partial \sigma_{j}} \\
&= -\sum_{i} \frac{\pi_j\{-\frac{1}{\sigma_j}+\frac{(w_j-µ_j)^2}{\sigma^3_j}\}{\mathcal{N}(w_j|µ_j,\sigma_j^2)}}{\Sigma^M_{j=1}\pi_k\mathcal{N}(w_i|µ_k,\sigma_k^2) }
\end{aligned}
(5.140)
\frac{\partial \Omega}{\partial \sigma_{j}} =\sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right)
よって
\frac{\partial \tilde{E}}{\partial \sigma_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right) \tag{5.143}
を得る。
演習 5.32
\pi_{j}=\frac{\exp \left(\eta_{j}\right)}{\sum_{k=1}^{M} \exp \left(\eta_{k}\right)} \tag{5.146}
で定義される混合係数\{\pi_k \}の補助パラメータ\{ \eta_j \}に関する微分が
\frac{\partial \pi_{k}}{\partial \eta_{j}}=\delta_{j k} \pi_{j}-\pi_{j} \pi_{k} \tag{5.208}
で与えられることを示せ.また,すべてのiについて\sum_k \gamma_k (w_i)=1という制約条件を利用して,
\frac{\partial \widetilde{E}}{\partial \eta_{j}}=\lambda \sum_{i}\left\{\pi_{j}-\gamma_{j}\left(w_{i}\right)\right\} \tag{5.147}
の結果を導け.
※テキストの(5.147)式でも\lambdaが抜けている誤植がある。
前半部分は演習問題4.17と同じなので省略。ただ、文字k,jがややこしいので
\pi_{k}=\frac{\exp \left(\eta_{k}\right)}{\sum_{j=1}^{M} \exp \left(\eta_{j}\right)} \tag{5.146}
をもとに偏微分し、j=kとj\neq kの場合に分けて考える。結果的に(5.208)式が求まる。
後半は演習問題5.31までと同様に解いていく。
\begin{aligned}
\frac{\partial \widetilde{E}}{\partial \eta_{j}} &=\lambda \frac{\partial \Omega(\mathbf{w})}{\partial \eta_{j}} \\
&=-\lambda \frac{\partial}{\partial \eta_{j}}\left\{\sum_{i} \ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right)\right\} \\
&=-\lambda \sum_{i} \frac{\partial}{\partial \eta_{j}}\left\{\ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right)\right\} \\
&=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)} \sum_{k=1}^{M} \frac{\partial}{\partial \eta_{j}}\left\{\pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right\} \\
&=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)} \sum_{k=1}^{M} \frac{\partial}{\partial \pi_{k}}\left\{\pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right\} \frac{\partial \pi_{k}}{\partial \eta_{j}} \\
&=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)} \sum_{k=1}^{M} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\left(\delta_{kj} \pi_{j}-\pi_{j} \pi_{k}\right) \\
&=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}\left\{\pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)- \pi_{j} \sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right\} \\
&=-\lambda \sum_{i}\left\{\frac{\pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}-\frac{\left.\pi_{j} \sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right)}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}\right\} \\
&=-\lambda \sum_{i}\left\{\gamma_{j}\left(w_{i}\right)-\pi_{j}\right\} \\
&=\lambda \sum_{i}\left\{\pi_{j}-\gamma_{j}\left(w_{i}\right)\right\}
\end{aligned}
ちなみに後半部分の別解がある。
Just as in Solutions 5.30 and 5.31, j only affect \widetilde{E} through \Omega. However, j will affect k for all values of k (not just j = k). Thus we have
\frac{\partial \Omega}{\partial \eta_{j}}=\sum_{k} \frac{\partial \Omega}{\partial \pi_{k}} \frac{\partial \pi_{k}}{\partial \eta_{j}} \tag{192}
From (5.138) and (5.140), we get
\frac{\partial \Omega}{\partial \pi_{k}}=-\sum_{i} \frac{\gamma_{k}\left(w_{i}\right)}{\pi_{k}}
Substituting this and (5.208) into (192) yields
\begin{aligned}\frac{\partial \Omega}{\partial \eta_{j}} &=\frac{\partial \widetilde{E}}{\partial \eta_{j}}=-\sum_{k} \sum_{i} \frac{\gamma_{k}\left(w_{i}\right)}{\pi_{k}}\left\{\delta_{j k} \pi_{j}-\pi_{j} \pi_{k}\right\} \\ &=\sum_{i}\left\{\pi_{j}-\gamma_{j}\left(w_{i}\right)\right\}\end{aligned}
where we have used the fact that \sum_{k} \gamma_{k}\left(w_{i}\right)=1 for all i.
演習 5.33
図5.18に示すロボットアームのデカルト座標(x_1, x_2)を表す2つの方程式を関節角\theta_1, \theta_2とリンクの長さL_1, L_2で書き下せ.ここで,座標系の原点は下側のアームの接続点で与えられるとせよ.これらの方程式は,ロボットアームの「順運動学」を定義する.
\begin{aligned}
x_1 &= L_1\cos{\theta_1} + L_2\cos{(\theta_1+\theta_2-\pi)} \\&= L_1\cos{\theta_1} - L_2\cos{(\theta_1+\theta_2)}
\end{aligned}
\begin{aligned}
x_2 &= L_1\sin{\theta_1} + L_2\sin{(\theta_1+\theta_2-\pi)} \\&= L_1\sin{\theta_1} - L_2\sin{(\theta_1+\theta_2)}
\end{aligned}
演習 5.34
混合密度ネットワーク内の混合係数を制御するネットワークの出力活性に関する誤差関数の微分について,
\frac{\partial E_{n}}{\partial a_{k}^{\pi}}=\pi_{k}-\gamma_{n k} \tag{5.155}
の結果を導け.
※ソフトマックス関数の\pi_kはk=1, \cdots, Kに依存しているので
微分のchain ruleから(ソフトマックス関数の\pi_kはk=1, \cdots, Kに依存しているので\sumを使う)
\frac{\partial E_{n}}{\partial a_{k}^{\pi}}=\sum_{j=1}^{K} \frac{\partial E_{n}}{\partial \pi_{j}} \frac{\partial \pi_{j}}{\partial a_{k}^{\pi}}
この第1項について
\frac{\partial E_{n}}{\partial \pi_{j}}=-\frac{\mathcal{N}_{n j}}{\sum_{l=1}^{K} \pi_{l} \mathcal{N}_{n l}}=-\frac{\gamma_{nj}}{\pi_{j}}\quad (\because (5.154))
第2項について(演習問題4.17を参照)
\begin{aligned}
\frac{\partial \pi_{j}}{\partial a_{k}^{\pi}} &=\frac{\partial}{\partial a_{k}^{\pi}}\left(\frac{e^{a_{j}^{\pi}}}{\sum_{l=1}^{K} e^{a_{l}^{\pi}}}\right) \\
&=\pi_{j}\left(\delta_{k j}-\pi_{k}\right)
\end{aligned}
よって、この二式を結合させると
\begin{aligned}
\frac{\partial E_{n}}{\partial a_{k}^{\pi}} &=\sum_{j=1}^{K}\left(-\frac{\gamma_{nj}}{\pi_{j}}\right) \pi_{j}\left(\delta_{k j}-\pi_{k}\right) \\
&=\sum_{j=1}^{K} \gamma_{nj}\left(\pi_{k}-\delta_{k j}\right) \\
&=-\gamma_{n_{k}}+\sum_{j=1}^{K} \gamma_{n j} \pi_{k} \\
&=\pi_{k}-\gamma_{n k}\left(\because \sum_{j=1}^{K} \gamma_{nj}=1\right)
\end{aligned}
以上から(5.155)式が示された。
演習 5.35
混合密度ネットワーク内の各要素の平均を制御するネットワークの出力活性に関する誤差関数の微分について,
\frac{\partial E_{n}}{\partial a_{k l}^{\mu}}=\gamma_{n k}\left\{\frac{\mu_{k l}-t_{n l}}{\sigma_{k}^{2}}\right\} \tag{5.156}
の結果を導け.
a_{k l}^{\mu}=\mu_{k l}\tag{5.152}
より
\frac{\partial E_{n}}{\partial a_{k l}^{\mu}}=\frac{\partial E_{n}}{\partial \mu_{k l}}
が得られる。
\partial E_{n}=-{\sum_{n=1}^N}\ln \bigg({\sum_{k=1}} \pi_k \mathcal{N}_{n k}\bigg)\tag{5.153}
\gamma_{n k}=\frac{\pi_k \mathcal{N}_{n k}}{\sum_{l=1}^K\pi_l \mathcal{N}_{n l}}\tag{5.154}
これらと(2.43)のガウス分布の式を用いると以下のように導ける。
\begin{aligned}
\frac{\partial E_{n}}{\partial \mu_{k l}} &=-\frac{\pi_k}{{\sum_{k=1}} \pi_k \mathcal{N}_{n k}} \cdot \mathcal{N}_{n k} \cdot \frac{t_{n l}-\mu_{k l}}{\sigma^2} \\
&=\gamma_{n k} \frac{\mu_{k l}-t_{n l}}{\sigma_{k}^2}
\end{aligned}
演習 5.36
混合密度ネットワーク内の各要素の分散を制御するネットワークの出力活性に関する誤差関数の微分について,
\frac{\partial E_{n}}{\partial a_{k}^{\sigma}}=\gamma_{n k}\left(L-\frac{\left\|\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\right\|^{2}}{\sigma_{k}^{2}}\right) \tag{5.157}
の結果を導け.
微分のchain-ruleより
\frac{\partial E_{n}}{\partial a_{k}^{\sigma}}=\frac{\partial E_{n}}{\partial \sigma_{k}}\frac{\partial \sigma_{k}}{\partial a_{k}^{\sigma}}
第二項について
\sigma_{k}=\exp({a_{k}^{\sigma}})\tag{5.151}
より
\frac{\partial \sigma_{k}}{\partial a_{k}^{\sigma}}=\exp({a_{k}^{\sigma}})=\sigma_{k}
(2.43)
\begin{aligned}
\mathcal{N}_{n k}&=\frac{1}{{2 \pi}^{D/2}}\frac{1}{\vert{\sigma_{k^2} I}\vert}\exp\bigg({-\frac{1}{2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})^T \frac{1}{\sigma_k^2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})}\bigg)\\
&=\bigg(\frac{1}{2 \pi \sigma_k^2}\bigg)^{\frac{D}{2}}\exp\bigg({-\frac{1}{2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})^T \frac{1}{\sigma_k^2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})}\bigg)\\
&=\bigg(\frac{1}{2 \pi \sigma_k^2}\bigg)^{\frac{D}{2}}\exp\bigg(-{\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg)
\end{aligned}
第一項について変形したガウス分布の指揮,(1.153),(1.154)を用いて以下のように導ける。
\begin{aligned}
\frac{\partial E_{n}}{\partial \sigma_{k}}&=\frac{\pi_k}{-{\sum_{k=1}^K}\pi_k \mathcal{N}_{n k}} \bigg(\frac{1}{2 \pi}\bigg)^{\frac{D}{2}}\bigg({-\frac{L}{\sigma^{L+1}}exp\bigg(-{\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg)+\frac{1}{\sigma_k^2}exp\bigg(-{\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg)\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)\\
&=\frac{\mathcal{N}_{n k}\pi_k}{-{\sum_{k=1}^K}\pi_k \mathcal{N}_{n k}} \bigg({-\frac{L}{\sigma_k}+\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)\\
&=\gamma_{n k}\bigg({\frac{L}{\sigma_k}-\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)
\end{aligned}
最後に求めた第一項と第二項を掛け合わせて(5.157)の結果を得られる。
\begin{aligned}
\frac{\partial E_{n}}{\partial a_{k}^{\sigma}}&=\frac{\partial E_{n}}{\partial \sigma_{k}}\frac{\partial \sigma_{k}}{\partial a_{k}^{\sigma}}\\
&=\gamma_{n k}\bigg({\frac{L}{\sigma_k}-\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)\cdot \sigma_k \\
&=\gamma_{n k}\bigg({L-\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg)
\end{aligned}
演習 5.37
混合密度ネットワークモデルの条件付き平均と分散について,
\mathbb{E}[\mathbf{t} \mid \mathbf{x}]=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}=\sum_{k=1}^{K} \pi_{k}(\mathbf{x}) \boldsymbol{\mu}_{k}(\mathbf{x}) \tag{5.158}
および
s^2(\mathbf{x})=\sum_{k=1}^{K} \pi_{k}(\mathbf{x})\left\{L\sigma_{k}^{2}(\mathbf{x})+\left\|\mu_{k}(\mathbf{x})-\sum_{l=1}^{K} \pi_{l}(\mathbf{x}) \mu_{l}(\mathbf{x})\right\|^{2}\right\} \tag{5.160}
の結果を確かめよ.
※テキストの(5.160)式は間違っており、実際には\sigma_{k}^{2}(\mathbf{x})に係数Lがつくはずである。
p(\mathbf{t} \mid \mathbf{x})=\sum_{k=1}^{K} \pi_{k}(\mathbf{x}) \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}(\mathbf{x}), \sigma_{k}^{2}(\mathbf{x}) \mathbf{I}\right) \tag{5.148}
を利用してまず平均の\mathbb{E}[\mathbf{t}\mid \mathbf{x}]を計算すると
\begin{aligned}
\mathbb{E}[\mathbf{t} \mid \mathbf{x}] &=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) d \mathbf{t} \\
&=\int \mathbf{t} \sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}, \sigma_{k}^{2}\mathbf{I}\right) d \mathbf{t} \\
&=\sum_{k=1}^{K} \pi_{k} \int \mathbf{t} \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}, \sigma_{k}^{2}\mathbf{I}\right) d \mathbf{t} \\
&=\sum_{k=1}^{K} \pi_{k} \boldsymbol{\mu}_{k}
\end{aligned}
となる。次に分散はs^{2}(x)=\mathbb{E}\left[\mathbf{t}^{2} \mid \mathbf{x}\right]-\{\mathbb{E}[\mathbf{t} \mid \mathbf{x}]\}^{2}で求められるため、\mathbb{E}\left[\mathbf{t}^{2} \mid \mathbf{x}\right]を計算すると
\begin{aligned}
\mathbb{E}\left[\mathbf{t}^{2} \mid \mathbf{x}\right] &=\mathbb{E}\left[\mathbf{t}^{\mathrm{T}} \mathbf{t} \mid \mathbf{x}\right] \\
&=\mathbb{E}\left[\operatorname{Tr}\left[\mathbf{t}^{\mathrm{T}} \mathbf{t}\right] \mid \mathbf{x}\right] \\
&=\mathbb{E}\left[\operatorname{Tr}\left[\mathbf{t}\mathbf{t}^{\mathrm{T}}\right] \mid \mathbf{x}\right] \\
&=\operatorname{Tr}\left[\int \mathbf{t}\mathbf{t}^{\mathrm{T}} \sum_{k=1}^{K} \pi_k \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}, \sigma_{k}^{2} \mathbf{I}\right) d \mathbf{t}\right] \\
&=\sum_{k=1}^{K}\pi_k \operatorname{Tr}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm{T}}+\sigma_{k}^{2} \mathbf{I}\right] \\
&=\sum_{k=1}^{K}\pi_k \left(\left\|\boldsymbol{\mu}_{k}\right\|^{2}+L \sigma_{k}^{2}\right)
\end{aligned}
ここで、Lは\mathbf{t}の次元数である(この計算本当に合ってるのか疑問)。途中の式変形では
\mathbb{E}\left[\mathbf{xx}^{\mathrm{T}}\right]=\boldsymbol{\mu \mu}^{\mathrm{T}}+\mathbf{\Sigma} \tag{2.62}
を用いた。
以上を用いて計算すると
\begin{aligned}
s^{2}(\mathbf{x}) &= \sum_{k=1}^{K} \pi_{k}\left(L \sigma_{k}^{2}+\left\|\boldsymbol{\mu}_{k}\right\|^{2}\right)-\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\
&=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\
&=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-2 \times\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2}+1 \times\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\
&=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-2\left(\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right)\left(\sum_{k=1}^{K} \pi_{k} \boldsymbol{\mu}_{k}\right)+\left(\sum_{k=1}^{K} \pi_{k}\right)\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\
&=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-2\left(\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right)\left(\sum_{k=1}^{K} \pi_{k} \boldsymbol{\mu}_{k}\right)+\sum_{k=1}^{K} \pi_{k}\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\
&=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}-\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\
&=\sum_{k=1}^{K} \pi_{k}\left(L \sigma_{k}^{2}+\left\|\boldsymbol{\mu}_{k}-\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2}\right)
\end{aligned}
以上から(5.160)式が導出された。
演習 5.38
一般的な結果
p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}
を用いて,ベイズニューラルネットワークモデルのラプラス近似による予測分布
p(t \mid \mathbf{x}, \mathcal{D}, \alpha, \beta)=\mathcal{N}\left(t \mid y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right), \sigma^{2}(\mathbf{x})\right) \tag{5.172}
を導け.
※(2.115)と(5.172)式が一致するように変数の値を変換できれば題意を満たせる。
(5.173)式から、\sigma^2(\mathbf{x}) = \beta^{-1}+\mathbf{g}^{\mathrm T}\mathbf{A}^{-1}\mathbf{g}で定義されている。
(2.115)式と(5.172)式の比較から
\mathbf{y} \Rightarrow t,\quad \mathbf{L}^{-1} \Rightarrow \beta^{-1},\quad \mathbf{A} \Rightarrow \mathbf{g}^{\mathrm{T}},\quad\mathbf{\Lambda}^{-1} \Rightarrow \mathbf{A}^{-1}
となることはわかる。
\mathbf{A} \boldsymbol{\mu}+\mathbf{b} = y(\mathbf{x},\mathbf{w}_{\mathrm{MAP}})の関係は、ラプラス近似ではMAP(最大事後確率)解付近での近似なので\boldsymbol{\mu} \Rightarrow \mathbf{w}_{\mathrm{MAP}}とすればよく、このとき\mathbf{g}^{\mathrm T}\mathbf{w}_{\mathrm{MAP}} + \mathbf{b} = y(\mathbf{x},\mathbf{w}_{\mathrm{MAP}})なので、
\mathbf{b} \Rightarrow y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right)-\mathbf{g}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}
とすればよい。
以上の変数変換を適用すると、
\begin{aligned}
p(t) &=\mathcal{N}\left(t \mid \mathbf{g}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right)-\mathbf{g}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}, \beta^{-1}+\mathbf{g}^{\mathrm{T}} \mathbf{A}^{-1} \mathbf{g}\right) \\
&=\mathcal{N}\left(t \mid y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right), \sigma^{2}\right)
\end{aligned}
となる。
演習 5.39
ラプラス近似の結果
\begin{aligned}
Z &=\int f(\mathbf{z}) \mathrm{d} \mathbf{z} \\
& \simeq f\left(\mathbf{z}_{0}\right) \int \exp \left\{-\frac{1}{2}\left(\mathbf{z}-\mathbf{z}_{0}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{z}-\mathbf{z}_{0}\right)\right\} \mathrm{d} \mathbf{z} \\
&=f\left(\mathbf{z}_{0}\right) \frac{(2 \pi)^{M / 2}}{|\mathbf{A}|^{1 / 2}}
\end{aligned} \tag{4.135}
を用いて,ベイズニューラルネットワークモデルにおける超パラメータ\alpha, \betaのエビデンス関数が
\ln p(\mathcal{D} \mid \alpha, \beta) \simeq-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi) \tag{5.175}
で近似できることを示せ.ただし
E\left(\mathbf{w}_{\mathrm{MAP}}\right)=\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}} \tag{5.176}
である。
※ やや計算量が多いが、ラプラス近似とガウス分布の計算さえしっかりすれば大丈夫。
まず(5.174)式
p(\mathcal{D} \mid \alpha, \beta)=\int p(\mathcal{D} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w}
についてf(\mathbf{w})=p(\mathcal{D} \mid \mathbf{w}, \beta)p(\mathbf{w} \mid \alpha),\ Z=p(\mathcal{D} \mid \alpha, \beta)として(4.135)式のラプラス近似の式に代入すると
\begin{aligned}
p(\mathcal{D} \mid \alpha, \beta) &\simeq p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}, \beta\right) p\left(\mathbf{w}_{\mathrm{MAP}} \mid \alpha\right) \int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{w}_{\mathrm{MAP}}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{w}_{\mathrm{MAP}}\right)\right\} \mathrm{d} \mathbf{w} \\
&=f\left(\mathbf{w}_{\mathrm {MAP}}\right) \frac{(2 \pi)^{W/2}}{|\mathbf{A}|^{1/2}}
\end{aligned}
とおくことができる。ここで、Wは\mathbf{w}の次元数である。
f(\mathbf{w}_{\mathrm{MAP}})について展開すると, (5.162), (5.163)式を用いて
\begin{aligned}
f\left(\mathbf{w}_{\mathrm {MAP}}\right)=& p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm {MAP}}, \beta\right) p\left(\mathbf{w}_{\mathrm {MAP}} \mid \alpha\right) \\
=& \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm {MAP}}\right), \beta^{-1}\right) \mathcal{N}\left(\mathbf{w}_{\mathrm {MAP}} \mid \mathbf{0}, \alpha^{-1} \mathrm{I}\right) \\
=& \prod_{n=1}^{N} \left(\frac{\beta}{2 \pi}\right)^{1 / 2} \exp \left[-\frac{\beta}{2}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm {MAP}}\right)\right\}^{2}\right] \\
& \frac{1}{(2 \pi)^{W / 2}} \frac{1}{\left|\alpha^{-1} \mathbf{I}\right|^{1 / 2}} \exp \left\{-\frac{1}{2} \mathbf{w}_{\mathrm {MAP}}^{\mathrm{T}}\left(\alpha^{-1} \mathbf{I}\right)^{-1} \mathbf{w}_{\mathrm {MAP}}\right\} \\
=& \prod_{n=1}^{N}\left(\frac{\beta}{2 \pi}\right)^{1 / 2} \exp \left[-\frac{\beta}{2}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm {MAP}}\right)\right\}^{2}\right] \left(\frac{\alpha}{2 \pi}\right)^{W/2} \exp \left(-\frac{\alpha}{2} \mathbf{w}_{\mathrm {MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm {MAP}}\right)
\end{aligned}
これの対数を取ると
\begin{aligned}
\ln p(\mathcal{D} \mid \alpha, \beta) & \simeq \ln f\left(\mathbf{w}_{\mathrm{MAP}}\right)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\
&=\sum_{n=1}^{N}\left[\frac{1}{2}\{\ln \beta-\ln (2 \pi)\}-\frac{\beta}{2}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)\right\}^{2}\right] \\
&+\frac{W}{2}\{\ln \alpha-\ln (2 \pi)\}-\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\
&=-\left[\frac{\beta}{2} \sum_{n=1}^{N}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)\right\}^{2}+\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}\right] -\frac{1}{2} \ln |\mathbf{A}|+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{W}{2} \ln \alpha \\
&=-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)
\end{aligned}
以上から(5.175)式を得た。
演習 5.40
5.7.3節で議論されたベイズニューラルネットワークの枠組みを,ソフトマックス活性化関数を出力ユニットに持つネットワークを用いて多クラス問題を扱えるようにするために必要な変更について.概略を述べよ.
※5.7.3節の議論をソフトマックス関数・多クラス問題の置き換えるだけ
まずソフトマックス関数(5.25)の式から
y_{k}(\mathbf{x}, \mathbf{w})=\frac{\exp \left(a_{k}(\mathbf{x}, \mathbf{w})\right)}{\sum_{j} \exp \left(a_{j}(\mathbf{x}, \mathbf{w})\right)}
となり、目標変数\mathbf{t}の条件付き分布を多項分布にとって
p(\mathbf{t} \mid \mathbf{x}, \mathbf{w})=\prod_{k=1}^{K} y_{k}(\mathbf{x}, \mathbf{w})^{t_{k}}
これをもとに尤度を計算すると、\mathcal{D}=\left\{\mathbf{t}_{1}, \mathbf{t}_{2}, \ldots\right\}, \mathbf{X}=\left\{\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots\right\}, y_{n k}=y_{k}\left(\mathbf{x}_{n}, \mathbf{w}\right)として、
\begin{aligned}
p(\mathcal{D} \mid \mathbf{X}, \mathbf{w}) &=\prod_{n=1}^{N} p\left(\mathbf{t}_{n} \mid \mathbf{x}_{n}, \mathbf{w}\right) \\
&=\prod_{n=1}^{N} \prod_{k=1}^{K} y_{n k}^{t_{n k}}
\end{aligned}
となる。これより対数尤度は
\ln p(\mathcal{D} \mid \mathbf{X}, \mathbf{w})=\sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}
となる。
対数尤度関数が求まったので、ラプラス近似理論を適用するために超パラメータ\alphaを初期化する。\mathbf{w}の事後分布は
p(\mathbf{w} \mid \mathcal{D}, \mathbf{X})=\frac{p(\mathcal{D}, \mathbf{w} \mid \mathbf{X})}{p(\mathcal{D} \mid \mathbf{X})}=\frac{p(\mathcal{D} \mid \mathbf{w}, \mathbf{X}) p(\mathbf{w})}{p(\mathcal{D} \mid \mathbf{X})} \simeq p(\mathcal{D} \mid \mathbf{w}, \mathbf{X}) p(\mathbf{w})
なので、対数事後分布は
\ln p(\mathbf{w} \mid \mathcal{D}, \mathbf{X}) = \sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}+\ln p(\mathbf{w})+ \textrm{const.}
となる。重みの事前分布p(\mathbf{w})を(5.162)のように
p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)
とすると、
\ln p(\mathbf{w} \mid \mathcal{D}, \mathbf{X})=\sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}+\textrm{const.}
となるので、対数事後分布の最大化は正則化誤差関数
\begin{aligned}
E(\mathrm{w}) &=-\ln p(\mathcal{D} \mid \mathrm{w}, \mathrm{X})+\frac{\alpha}{2} \mathrm{w}^{\mathrm{T}} \mathrm{w} \\
&=-\sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}+\frac{\alpha}{2} \mathrm{w}^{\mathrm{T}} \mathrm{w}
\end{aligned}
の最小化と等価になることがわかる。
E(\mathbf{w})を最小にする\mathbf{w}_{\mathrm{MAP}}を\frac{\partial E}{\partial \mathbf{w}} = 0から求める。
\mathbf{w}_{\mathrm{MAP}}を求めたらラプラス近似を使って
\begin{aligned}
p(\mathcal{D} \mid \alpha, \mathbf{X}) &=\int p(\mathcal{D} \mid \mathbf{w}, \mathbf{X}) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\
&\simeq p(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}, \mathbf{X}) p(\mathbf{w}_{\mathrm{MAP}} \mid \alpha)\frac{(2\pi)^{W/2}}{|\mathbf{A}|^{1/2}}
\end{aligned}
となる。これを使って対数をとっていくと
\ln p(\mathcal{D} \mid \alpha, \mathbf{X})=-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha
となる。
あとはP.284と同様に\ln p(\mathcal{D}\mid \alpha)を最大化して\alphaの点推定を行う。結果は(5.178)のように
\alpha=\frac{\gamma}{\mathrm{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathrm{w}_{\mathrm{MAP}}}, \quad \gamma=\sum_{i=1}^{W} \frac{\lambda_{i}}{\alpha+\lambda_{i}}
となる。
演習 5.41
回帰ネットワークに関する5.7.1節および5.7.2節と類似のステップに従って,交差エントロピー誤差関数とロジスティックシグモイド活性化関数の出力ユニットを持つネットワークの場合の周辺化尤度の結果
\ln p(\mathcal{D} \mid \alpha) \simeq-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha \tag{5.183}
を導け.ただし
E\left(\mathbf{w}_{\mathrm{MAP}}\right)=-\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}+\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}} \tag{5.184}
である.
※演習問題5.39と流れはほとんど同じ
ラプラス近似を用いると
\begin{aligned}
p(\mathcal{D} \mid \alpha) &=\int p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}\right) p\left(\mathbf{w}_{\mathrm{MAP}} \mid \alpha\right) d \mathbf{w} \\
& \simeq p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}\right) p\left(\mathbf{w}_{\mathrm{MAP}}\mid \alpha\right) \frac{(2 \pi)^{W / 2}}{|\mathbf{A}|^{1 / 2}}
\end{aligned}
と書ける。ここで、今p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}\right)はロジスティック回帰を出力に持つ活性化関数となっているので、対数形は
\ln p(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}})=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}
で示される(y_{n} \equiv y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)である)。p\left(\mathbf{w}_{\mathrm{MAP}}\mid \alpha\right)は引き続きガウス分布
p(\mathbf{w}_{\mathrm{MAP}} \mid \alpha)=\mathcal{N}\left(\mathbf{w}_{\mathrm{MAP}} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right) \tag{5.162}
を用いる。
以上から\ln p(\mathcal{D}\mid \alpha)を計算すると
\begin{aligned}
\ln P\left(\mathcal{D} \mid \alpha\right) & \simeq \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} +\ln \mathcal{N}\left(\mathbf{w}_{\mathrm{MAP}} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\
& = \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} +\ln \left\{ \left(\frac{\alpha}{2 \pi}\right)^{W / 2} \exp \left(-\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}\right) \right\}+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\
& = \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} -\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+\frac{W}{2}\ln \alpha-\frac{W}{2}\ln (2\pi)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\
& = \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} -\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+\frac{W}{2}\ln \alpha-\frac{W}{2}\ln (2\pi)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\
&= -E\left(\mathbf{w}_{\mathrm{MAP}}\right) -\frac{1}{2} \ln |\mathbf{A}| +\frac{W}{2}\ln \alpha
\end{aligned}
となる。以上から(5.183)が導けた。
Discussion
お世話になります。
演習5.21の下から4行目、W×Kは、M×Kであるように思います。
修正いたしました。
お世話になります。MではなくNになっております。
お世話になります。
演習5.27の下から3行目の▽y(x)^T ▽y(x)の箇所にはトレースの表示が必要ではないでしょうか?
これは必要ない、というよりあってもなくても同義になると思います。
大変お忙しい中、ご返信誠にありがとうございます。解答欄6行目に▽y(x)は行ベクトルであるとの記載があり、そうなりますと▽y(x)^T ▽y(x)は行列であり、その対角成分が元のベクトルの各要素の二乗であることからトレースの表示が必要では?と思った次第です。トンチンカンなことを言っているかも知れませんので、その場合はお気になさらずスルー下さいませ。