Zenn
🧠

PRML 第5章(5.21から5.41まで) 解答例

2022/06/28に公開
6

はじめに

PRML解答例まとめを参照

演習 5.21

(難問)ヘッセ行列の外積による近似式

HN=n=1NbnbnT(5.86) \mathbf{H}_{N}=\sum_{n=1}^{N} \mathbf{b}_{n} \mathbf{b}_{n}^{\mathrm{T}} \tag{5.86}

を出力ユニットがK>1K>1個ある場合に拡張せよ.すなわち,パターンの寄与だけではなく出力の寄与も逐次的に受ける形の

HL+1=HL+bL+1bL+1T(5.87) \mathbf{H}_{L+1}=\mathbf{H}_{L}+\mathbf{b}_{L+1} \mathbf{b}_{L+1}^{\mathrm{T}} \tag{5.87}

を導け.この式と

(M+vvT)1=M1(M1v)(vTM1)1+vTM1v(5.88) \left(\mathbf{M}+\mathbf{vv}^{\mathrm{T}}\right)^{-1}=\mathbf{M}^{-1}-\frac{\left(\mathbf{M}^{-1} \mathbf{v}\right)\left(\mathbf{v}^{\mathbf{T}} \mathbf{M}^{-1}\right)}{1+\mathbf{v}^{\mathbf{T}} \mathbf{M}^{-1} \mathbf{v}} \tag{5.88}

により,

HL+11=HL1HL1bL+1bL+1THL11+bL+1THL1bL+1(5.89) \mathbf{H}_{L+1}^{-1}=\mathbf{H}_{L}^{-1}-\frac{\mathbf{H}_{L}^{-1} \mathbf{b}_{L+1} \mathbf{b}_{L+1}^{\mathrm{T}} \mathbf{H}_{L}^{-1}}{1+\mathbf{b}_{L+1}^{\mathrm{T}} \mathbf{H}_{L}^{-1} \mathbf{b}_{L+1}} \tag{5.89}

を利用して個々のパターンと出力からの寄与を逐次的に扱うことでヘッセ行列の逆行列を求めることができるようになる.


演習問題5.16 とほぼ同じ……?

演習5.16の結果から、KK次元の複数出力を持つ場合のヘッセ行列の外積による近似式は

HN,K=n=1Nk=1Kbn,kbn,kT \mathbf{H}_{N,K}=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbf{b}_{n,k} \mathbf{b}_{n,k}^{\mathrm{T}}

である。ここでbn,k=ynk\mathbf{b}_{n,k} = \nabla y_{nk}である。

これより単純にNN+1N \to N+1とすれば

HN+1,K=HN,K+k=1KbN+1,kbN+1,kT=HN,K+BN+1BN+1T \begin{aligned} \mathbf{H}_{N+1,K} &= \mathbf{H}_{N,K} + \sum_{k=1}^{K}\mathbf{b}_{N+1,k}\mathbf{b}_{N+1,k}^{\mathrm T} \\ &= \mathbf{H}_{N,K} + \mathbf{B}_{N+1}\mathbf{B}_{N+1}^{\mathrm T} \end{aligned}

の式が成り立つ。ここでBN+1\mathbf{B}_{N+1}(bN+1,1,,bN+1,K)\left( \mathbf{b}_{N+1,1}, \ldots , \mathbf{b}_{N+1,K} \right)で構成されるM×KM\times Kの行列である。

(5.88)(5.88)を使えば

HN+1,K1=HN,K1HN,K1BN+1BN+1THN,K11+BN+1THN,K1BN+1 \mathbf{H}_{N+1, K}^{-1}=\mathbf{H}_{N, K}^{-1}-\frac{\mathbf{H}_{N, K}^{-1} \mathbf{B}_{N+1} \mathbf{B}_{N+1}^{\mathrm T} \mathbf{H}_{N, K}^{-1}}{1+\mathbf{B}_{N+1}^{\mathrm T} \mathbf{H}_{N, K}^{-1} \mathbf{B}_{N+1}}

と書ける。

演習 5.22

微分のチェーンルールを応用して,2層フィードフォワードネットワークのヘッセ行列の要素について

2Enwkj(2)wkj(2)=zjzjMkk(5.93) \frac{\partial^{2} E_{n}}{\partial w_{k j}^{(2)} \partial w_{k^{\prime} j^{\prime}}^{(2)}}=z_{j} z_{j^{\prime}} M_{k k^{\prime}} \tag{5.93}
2Enwji(1)wji(1)=xixih(aj)Ijjkwkj(2)δk+xixih(aj)h(aj)kkwkj(2)wkj(2)Mkk(5.94) \frac{\partial^{2} E_{n}}{\partial w_{j i}^{(1)} \partial w_{j^{\prime} i^{\prime}}^{(1)}}=x_{i} x_{i^{\prime}} h^{\prime \prime}\left(a_{j^{\prime}}\right) I_{j j^{\prime}} \sum_{k} w_{k j^{\prime}}^{(2)} \delta_{k} +x_{i} x_{i^{\prime}} h^{\prime}\left(a_{j^{\prime}}\right) h^{\prime}\left(a_{j}\right) \sum_{k} \sum_{k^{\prime}} w_{k^{\prime} j^{\prime}}^{(2)} w_{k j}^{(2)} M_{k k^{\prime}} \tag{5.94}

および

2Enwji(1)wkj(2)=xih(aj){δkIjj+zjkwkj(2)Mkk}(5.95) \frac{\partial^{2} E_{n}}{\partial w_{j i}^{(1)} \partial w_{k j^{\prime}}^{(2)}}=x_{i} h^{\prime}\left(a_{j}\right)\left\{\delta_{k} I_{j j^{\prime}}+z_{j^{\prime}} \sum_{k^{\prime}} w_{k^{\prime} j}^{(2)} M_{k k^{\prime}}\right\} \tag{5.95}

の結果を導け.


(5.93)(5.93)について

{aj=iwjixizj=h(aj)yk=g(ak)δk=EnakMkk=2Enakak \left\{\begin{array}{l} a_{j}=\sum_{i} w_{j i} x_{i} \\ z_{j}=h\left(a_{j}\right) \\ y_{k}=g\left(a_{k}\right) \\ \delta_{k}=\frac{\partial E_{n}}{\partial a_{k}} \\ M_{k k^{\prime}}=\frac{\partial^{2} E_{n}}{\partial a_{k} \partial a_{k}^{\prime}} \end{array}\right.

とする。

Enwkj(2)=Enakakwkj(2)=Enakwkj(2)jwkj(2)zj=δkzj \begin{aligned} \frac{\partial E_{n}}{\partial w_{kj}^{(2)}} &=\frac{\partial E_{n}}{\partial a_{k}} \frac{\partial a_{k}}{\partial w_{kj}^{(2)}} \\ &=\frac{\partial E_{n}}{\partial a_{k}} \cdot \frac{\partial} {\partial w_{k j}^{(2)}}\sum_{j} w_{kj}^{(2)} z_{j} \\ &=\delta_{k} z_{j} \end{aligned}

これより

2Enwkj(2)wkj(2)=wkj(2)(Enwkj(2))=wkj(2)(δkzj)=zjδkwkj(2)=zj2Enakakakwkj(2)=zjzjMkk \begin{aligned} \frac{\partial^{2} E_{n}}{\partial w_{k j}^{(2)} \partial w_{k^{\prime} j^{\prime}}^{(2)}} &= \frac{\partial}{\partial w_{k^{\prime} j^{\prime}}^{(2)}}\left( \frac{\partial E_{n}}{\partial w_{kj}^{(2)}} \right) \\ &= \frac{\partial}{\partial w_{k^{\prime} j^{\prime}}^{(2)}}(\delta_k z_j) \\ &= z_{j} \frac{\partial \delta_{k}}{\partial w_{k^{\prime} j^{\prime}}^{(2)}} \\ &= z_{j} \frac{\partial^{2} E_{n}}{\partial a_{k} \partial a_{k^{\prime}}} \frac{\partial a_{k}}{\partial w_{k^{\prime} j^{\prime}}^{(2)}} \\ &= z_{j} z_{j^{\prime}} M_{k k^{\prime}} \end{aligned}

となる。

演習 5.23

2層ネットワークの正確なヘッセ行列に関する5.4.5節の結果を,入力から出力へ直接つながる,層を飛び越えた結合を含むように拡張せよ.


5.4.5節の1〜3のブロックに、新たに直接つながる重みを加えて考える。入力層から出力層につながる重みなので、これをwkiw_{ki}^{\circ}とする

2Enwkiwji(1)=Enwki(Enwji(1))=kEnwki(Enakakzjzjajajwji(1))=kEnwki(Enakwkj(2)h(aj)xi)=kwkj(2)h(aj)xiEnak(Enak)akwki=kwkj(2)h(aj)xiMkkxi(A)ak=iwkixi \begin{aligned} \frac{\partial^2 E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ} \partial w_{ji}^{(1)}}&=\frac{\partial E_n}{\partial w^{\circ}_{k^{\prime} i^{\prime}}}\left(\frac{\partial E_n}{\partial w_{ji}^{(1)}}\right) \\ & =\sum_k \frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial a_k} \cdot \frac{\partial a_k}{\partial z_j} \cdot \frac{\partial z_j}{\partial a_j} \cdot \frac{\partial a_j}{\partial w_{ji}^{(1)}}\right) \\ & =\sum_k \frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial a_k} \cdot w_{k j}^{(2)} \cdot h^{\prime}\left(a_j\right) \cdot x_i\right) \\ & =\sum_k w_{k j}^{(2)} h^{\prime}\left(a_j\right) x_i \frac{\partial E_n}{\partial a_{k^{\prime}}}\left(\frac{\partial E_n}{\partial a_k}\right) \frac{\partial a_{k^{\prime}}}{\partial w_{k^{\prime}i^{\prime}}^{\circ}} \\ & =\sum_k w_{k j}^{(2)} h^{\prime}\left(a_j\right) x_i M_{k k^{\prime}} x_{i^{\prime}} \quad \cdots (\textrm{A}) \quad \because a_{k^{\prime}}=\sum_{i^{\prime}}w_{k^{\prime}i^{\prime}}^{\circ}x_{i^{\prime}} \end{aligned}

次にwkiw_{ki}^{\circ}と第2層の重みwkj(2)w_{kj}^{(2)}との組み合わせを考える。

2Enwkiwkj(2)=Enwki(Enwkj(2))=Enwki(Enakakwkjk)=Enak(Enakzj)akwki=Mkkzjxi(B) \begin{aligned} \frac{\partial^2 E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ} \partial w_{kj}^{(2)}}&=\frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial w_{k j}^{(2)}}\right) \\ & =\frac{\partial E_{n}}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_{n}}{\partial a_k} \cdot \frac{\partial a_k}{\partial w_{k_j}^{k^{\prime}}}\right)=\frac{\partial E_{n}}{\partial a_{k^{\prime}}}\left(\frac{\partial E_{n}}{\partial a_k} \cdot z_j\right) \frac{\partial a_{k^{\prime}}}{\partial w_{k^{\prime}i^{\prime}}^{\circ}} \\ & =M_{k k^{\prime}} z_j x_{i^{\prime}} \quad \cdots (\textrm{B}) \end{aligned}

最後に、wkiw_{ki}^{\circ}同士の組み合わせを考える。

2Enwkiwki=Enwki(Enwki)=Enwki(Enakakwki)=Enak(Enakxi)akwki=Mkkxixi(C) \begin{aligned} \frac{\partial^2 E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ} \partial w_{k i}^{\circ}} & =\frac{\partial E_n}{\partial w_{k^{\prime} i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial w_{k i}^{\circ}}\right)=\frac{\partial E_n}{\partial w_{k^{\prime}i^{\prime}}^{\circ}}\left(\frac{\partial E_n}{\partial a_k} \cdot \frac{\partial a_k}{\partial w_{k i}^{\circ}}\right) \\ & =\frac{\partial E_n}{\partial a_{k^{\prime}}}\left(\frac{\partial E_n}{\partial a_k} \cdot x_i\right) \frac{\partial a_{k^{\prime}}}{\partial w_{k^{\prime} i^{\prime}}^{\circ}} \\ & =M_{k k^{\prime}} x_i x_{i^{\prime}} \quad \cdots (\textrm{C}) \end{aligned}

以上から5.4.5節の1〜3と(A)〜(C)のブロックを加えたものがヘッセ行列になる。

演習 5.24

入力への変換

xix~i=axi+b(5.115) x_{i} \rightarrow \widetilde{x}_{i}=a x_{i}+b \tag{5.115}

の下で,重みとバイアスが

wjiw~ji=1awji(5.116) w_{j i} \rightarrow \widetilde{w}_{j i}=\frac{1}{a} w_{j i} \tag{5.116}

wj0w~j0=wj0baiwji(5.117) w_{j 0} \rightarrow \widetilde{w}_{j 0}=w_{j 0}-\frac{b}{a} \sum_{i} w_{j i} \tag{5.117}

を用いて同時に変換されれば,

zj=h(iwjixi+wj0)(5.113) z_{j}=h\left(\sum_{i} w_{j i} x_{i}+w_{j 0}\right) \tag{5.113}

yk=jwkjzj+wk0(5.114) y_{k}=\sum_{j} w_{k j} z_{j}+w_{k 0} \tag{5.114}

で定義されたネットワーク関数は不変であることを確かめよ.同様に,ネットワーク出力は

wkjw~kj=cwkj(5.119) w_{k j} \rightarrow \widetilde{w}_{k j}=c w_{k j} \tag{5.119}

wk0w~k0=cwk0+d(5.120) w_{k 0} \rightarrow \widetilde{w}_{k 0}=c w_{k 0}+d \tag{5.120}

の変換を第2層の重みとバイアスに施すことにより,

yky~k=cyk+d(5.118) y_{k} \rightarrow \widetilde{y}_{k}=c y_{k}+d \tag{5.118}

に従って変換できることを示せ.


(前半)xix~ix_i \to \tilde{x}_i, wjiw~jiw_{ji} \to \tilde{w}_{ji}, wj0w~j0w_{j0} \to \tilde{w}_{j0}が同時に満たされれば、zjz_jyky_kが不変であることを示せばよい。

h(iw~jixi~+w~j0)=h(i(1awji)(axi+b)+(wj0baiwji))=h(iwjixi+wj0)=zj \begin{aligned} h\left(\sum_{i} \tilde{w}_{j i} \tilde{x_{i}}+\tilde{w}_{j 0}\right) &= h\left(\sum_{i}\left(\frac{1}{a} w_{j i}\right)\left(a x_{i}+b\right)+\left(w_{j0}-\frac{b}{a} \sum_{i} w_{j i}\right)\right) \\ &= h\left(\sum_{i} w_{j i} x_{i}+w_{j 0}\right) \\ &= z_{j} \end{aligned}

jw~kjzj~+w~k0\sum_{j}\tilde{w}_{kj} \tilde{z_{j}}+\tilde{w}_{k 0}について、入力の変換z~j=azj+b\tilde{z}_j = az_{j}+bを行う。

jw~kjzj~+w~k0=j(1awkj(azj+b))+(wk0bajwkj)=jwkj+wk0=yk \begin{aligned} \sum_{j}\tilde{w}_{kj} \tilde{z_{j}}+\tilde{w}_{k 0} &=\sum_{j}\left(\frac{1}{a} w_{k j}\left(a z_{j}+b\right)\right)+\left(w_{k 0}-\frac{b}{a} \sum_{j} w_{k j}\right) \\ &=\sum_{j} w_{k j}+w_{k 0} \\ &=y_{k} \end{aligned}

以上からzjz_jyky_kが不変であることが示された。

(後半)
(5.114)(5.114)式の右辺についてwkjw~kj,wk0w~k0w_{k j} \rightarrow \widetilde{w}_{k j}, w_{k 0} \rightarrow \widetilde{w}_{k 0}とすると

jw~kjzj+w~k0=j(cwkj)zj+cwk0+d=c(jwkjzj+wk0)+d=cyk+d \begin{aligned} \sum_{j} \tilde{w}_{k j} z_{j}+\tilde{w}_{k 0} &= \sum_{j}\left(c w_{k j}\right) z_{j}+c w_{k 0}+d \\ &= c\left(\sum_{j} w_{k j} z_{j}+w_{k 0}\right)+d \\ &= c y_{k}+d \end{aligned}

より、(5.118)(5.118)式の変換が成立することが示された。

演習 5.25

(難問)二次誤差関数

E=E0+12(ww)TH(ww)(5.195) E=E_{0}+\frac{1}{2}\left(\mathbf{w}-\mathbf{w}^{*}\right)^{\mathrm{T}} \mathbf{H}\left(\mathbf{w}-\mathbf{w}^{*}\right) \tag{5.195}

を考える.ただし,w\mathbf{w}^{\star}は最小値を表し,ヘッセ行列H\mathbf{H}は正定値で定数とする.重みベクトルは初期値w(0)\mathbf{w}^{(0)}が原点であり,単純な勾配降下法

w(τ)=w(τ1)ρE(5.196) \mathbf{w}^{(\tau)}=\mathbf{w}^{(\tau-1)}-\rho \nabla E \tag{5.196}

によって更新されるとしよう.ただし,τ\tauはステップ数,ρ\rhoは学習率(小さいと仮定)を表す.τ\tauステップ後に,H\mathbf{H}の固有ベクトルに平行な重みベクトルの成分は

wj(τ)={1(1ρηj)τ}wj(5.197) w_{j}^{(\tau)}=\left\{1-\left(1-\rho \eta_{j}\right)^{\tau}\right\} w_{j}^{\star} \tag{5.197}

と書けることを示せ.ただし,wj=wTujw_j = \mathbf{w}^{\mathrm T}\mathbf{u}_j,uj\mathbf{u}_jηj\eta_jはそれぞれH\mathbf{H}の固有ベクトルと固有値で,

Huj=ηjuj(5.198) \mathbf{H}\mathbf{u}_j = \eta_{j}\mathbf{u}_j \tag{5.198}

とする.もし1ρηj<1|1-\rho\eta_j|<1ならば,τ\tau \to \inftyにおいて期待通りw(τ)w\mathbf{w}^{(\tau)}\to \mathbf{w}^{\star}が与えられることを示せ.もし訓練が有限ステップ数τ\tauで止まったなら,ヘッセ行列の固有ベクトルに平行な重みベクトルの成分は

wj(τ)wj(ηj(ρτ)1)(5.199) w_{j}^{(\tau)} \simeq w_{j}^{\star} \left(\eta_{j} \gg(\rho \tau)^{-1}\right) \tag{5.199}
wj(r)wj(ηj(ρτ)1)(5.200) \left|w_{j}^{(r)}\right| \ll\left|w_{j}^{\star}\right| \left(\eta_{j} \ll(\rho \tau)^{-1}\right) \tag{5.200}

を満たすことを示せ.この結果を,3.5.3節での単純な荷重減衰による正則化の議論と比較し,(ρτ)1(\rho\tau)^{-1}が正則化パラメータλi\lambda_{i}に相当することを示せ.上の結果は

τ=iλiα+λi(3.91) \tau=\sum_{i} \frac{\lambda_{i}}{\alpha+\lambda_{i}} \tag{3.91}

で定義されるネットワークの有効パラメータ数が,訓練が進むにつれて増加することも示している.


誤差関数の式(5.195)(5.195)からヘッセ行列の計算を行う。微分すると

E=H(ww) \nabla E=\mathbf{H}\left(\mathbf{w}-\mathbf{w}^{\star}\right)

なので、(5.196)(5.196)式に代入すれば

w(τ)=w(τ1)ρH(w(τ1)w) \mathbf{w}^{(\tau)}=\mathbf{w}^{(\tau-1)}-\rho \mathbf{H}\left(\mathbf{w}^{(\tau-1)}-\mathbf{w}^{\star}\right)

H\mathbf{H}の固有ベクトルuj\mathbf{u}_jを使い、wj(τ)=ujTw(τ)w_j^{(\tau)} = \mathbf{u}_j^{\mathrm{T}}\mathbf{w}^{(\tau)}を用いると

wj(τ)=ujTw(τ)=ujTw(τ1)ρujTH(w(τ1)w)=wj(r1)ρηjujT(ww)=wj(τ1)ρηj(wj(τ1)wj)(*) \begin{aligned} w_{j}^{(\tau)} &=\mathbf{u}_{j}^{\mathrm{T}} \mathbf{w}^{(\tau)} \\ &=\mathbf{u}_{j}^{\mathrm{T}} \mathbf{w}^{(\tau-1)}-\rho \mathbf{u}_{j}^{\mathrm{T}} \mathbf{H}\left(\mathbf{w}^{(\tau-1)}-\mathbf{w}^{\star}\right) \\ &=w_{j}^{(r-1)}-\rho \eta_{j} \mathbf{u}_{j}^{\mathrm{T}}\left(\mathbf{w}-\mathbf{w}^{\star}\right) \\ &=w_{j}^{(\tau-1)}-\rho \eta_{j}\left(w_{j}^{(\tau-1)}-w_{j}^{\star}\right) \end{aligned} \tag{*}

となる。
この式をもとに、数学的帰納法を用いてすべての整数τ\tauについて(5.197)(5.197)式が成立することを示す。

まずτ=0\tau=0について

wj(0)={1(1ρηj)0}wj=0 w_j^{(0)} = \{ 1- (1-\rho\eta_j)^0\}w_j^{\star} = 0

初期座標が0\mathbf{0}なので成立している。次にτ=1\tau=1について()(*)の結果を用いると

wj(1)=wj(0)ρηj(wj(0)wj)=ρηjwj={1(1ρηj)}wj \begin{aligned} w_{j}^{(1)} &=w_{j}^{(0)}-\rho \eta_{j}\left(w_{j}^{(0)}-w_{j}^{\star}\right) \\ &=\rho \eta_{j} w_{j}^{*} \\ &=\left\{1-\left(1-\rho \eta_{j}\right)\right\} w_{j}^{\star} \end{aligned}

これは(5.197)(5.197)式にτ=1\tau=1を代入したものと同じになるのでτ=1\tau=1のときにも成立することが示された。

次にτ=N1\tau= N-1(5.197)(5.197)式が成立すると仮定したとき、τ=N\tau=Nにおいて

wj(N)=wj(N1)ρηj(wj(N1)wj)=wj(N1)(1ρηj)+ρηjwj={1(1ρηj)N1}wj(1ρηj)+ρηjwj={(1ρηj)(1ρηj)N}wj+ρηjwj={1(1ρηj)N}wj \begin{aligned} w_{j}^{(N)} &=w_{j}^{(N-1)}-\rho \eta_{j}\left(w_{j}^{(N-1)}-w_{j}^{\star}\right) \\ &=w_{j}^{(N-1)}\left(1-\rho \eta_{j}\right)+\rho \eta_{j} w_{j}^{\star} \\ &=\left\{1-\left(1-\rho \eta_{j}\right)^{N-1}\right\} w_{j}^{*}\left(1-\rho \eta_{j}\right)+\rho \eta_{j} w_{j}^{*} \\ &=\left\{\left(1-\rho \eta_{j}\right)-\left(1-\rho \eta_{j}\right)^{N}\right\} w_{j}^{\star}+\rho \eta_{j} w_{j}^{*} \\ &=\left\{1-\left(1-\rho \eta_{j}\right)^{N}\right\} w_{j}^{\star} \end{aligned}

となり、τ=N\tau=Nのときにも成立することが示された。

上式から1ρηj<1|1-\rho \eta_j| < 1ならば(1ρηj)N0(1-\rho \eta_j)^N \to 0となるため、τ\tau \to \inftyにてwj(τ)=w()w_j^{(\tau)} = w^{(\star)}つまりw(τ)=w()\mathbf{w}^{(\tau)} = \mathbf{w}^{(\star)}が与えられる。

τ\tauが有限でηj(ρτ)1\eta_j \gg (\rho\tau)^{-1}というのはηjρτ1\eta_j \rho \tau \gg 1を満たすので、τ\tauがとても大きい状態に相当する。これは上の議論からwj(τ)w()w_j^{(\tau)} \simeq w^{(\star)}となる。

ηj(ρτ)1\eta_j \ll (\rho\tau)^{-1}すなわちηjρτ1\eta_j\rho\tau \ll 1ならば、τ\tauが整数であることからρηj1\rho\eta_j \ll 1の状況であることが求められる。これより

(1ρηj)τ=1τρηj+O(ρ2ηj2) (1-\rho\eta_j)^{\tau} = 1-\tau\rho\eta_j + O(\rho^2\eta_j^2)

とテイラー展開してみると

wj(τ)={1(1ρηj)τ}wj={1(1τρηj+O(ρ2ηj2))}wjτρηjwj \begin{aligned} \left|w_{j}^{(\tau)}\right| &=\left|\left\{1-\left(1-\rho \eta_{j}\right)^{\tau}\right\} w_{j}^{\star}\right| \\ &=\left|\left\{1-\left(1-\tau \rho \eta_{j}+O\left(\rho^{2} \eta_{j}^{2}\right)\right)\right\} w_{j}^{\star}\right| \\ & \simeq \tau \rho \eta_{j}\left|w_{j}^{\star}\right| \end{aligned}

となり、これはwj(τ)wj|w_j^{(\tau)}|\ll\left|w_{j}^{\star}\right|となる。

3.5.3節の議論から、この節でα\alphaとされていた正則化パラメータが固有ベクトルの1つλi\lambda_iよりもとても大きな値(λiα\lambda_i \ll \alpha)のとき、対応するwiw_iの値は00に近くなる。反対にλiα\lambda_i \gg \alphaならばwiw_iは最尤推定値に最も近くなる。このことから、α\alpha(ρτ)1(\rho\tau)^{-1}の役割ととても似ていることがわかる。

演習 5.26

任意のフィードフォワード構造を持つ多層パーセプトロンを考える.ここで訓練には,正則化関数として

Ω=12nk(ynkξξ=0)2=12nk(i=1DJnkiτni)2(5.128) \Omega=\frac{1}{2} \sum_{n} \sum_{k}\left(\left.\frac{\partial y_{n k}}{\partial \xi}\right|_{\xi=0}\right)^{2}=\frac{1}{2} \sum_{n} \sum_{k}\left(\sum_{i=1}^{D} J_{n k i} \tau_{n i}\right)^{2} \tag{5.128}

を持つ接線伝播誤差関数

E~=E+λΩ(5.127) \widetilde{E} = E + \lambda\Omega \tag{5.127}

の最小化を用いる.正則化項Ω\Omegaが,全パターンについて

Ωn=12k(Gyk)2xn(5.201) \Omega_{n}=\left. \frac{1}{2} \sum_{k}\left(\mathcal{G} y_{k}\right)^{2}\right|_{\mathbf{x}_n} \tag{5.201}

という形の項を足し合わせたもので書けることを示せ.ここでG\mathcal{G}

Giτixi(5.202) \mathcal{G} \equiv \sum_{i} \tau_{i} \frac{\partial}{\partial x_{i}} \tag{5.202}

で定義される微分演算子である.演算子G\mathcal{G}と順伝播方程式

zj=h(aj),aj=iwjizi(5.203) z_{j}=h\left(a_{j}\right), \quad a_{j}=\sum_{i} w_{j i} z_{i} \tag{5.203}

を利用し,Ωn\Omega_n

αj=h(aj)βj,βj=iwjiαi(5.204) \alpha_{j}=h^{\prime}\left(a_{j}\right) \beta_{j}, \quad \beta_{j}=\sum_{i} w_{j i} \alpha_{i} \tag{5.204}

という方程式を用いた順伝播によって評価できることを示せ.ただし

αjGzj,βjGaj(5.205) \alpha_{j} \equiv \mathcal{G} z_{j}, \quad \beta_{j} \equiv \mathcal{G} a_{j} \tag{5.205}

と定義した.上の結果を用いて,Ωn\Omega_nのネットワーク内の重みwrsw_{rs}に関する微分が

Ωnwrs=kαk{ϕkrzs+δkrαs}(5.206) \frac{\partial \Omega_{n}}{\partial w_{r s}}=\sum_{k} \alpha_{k}\left\{\phi_{k r} z_{s}+\delta_{k r} \alpha_{s}\right\} \tag{5.206}

という形で書けることを示せ.ただし

δkrykar,ϕkrGδkr(5.207) \delta_{k r} \equiv \frac{\partial y_{k}}{\partial a_{r}}, \quad \phi_{k r} \equiv \mathcal{G} \delta_{k r} \tag{5.207}

と定義した.δkr\delta_{kr}についての逆伝播方程式を書き下し,ϕkr\phi_{kr}を評価するための逆伝播方程式系を導け.


※ この問題では、厳密にはある1つの入力xn\mathbf{x}_nに依存する正則化項Ωn\Omega_{n}を考える必要があるので、(5.201)(5.201)など必要に応じて下付き文字nnをつけて考えることにする(が、実際に問題を解く上ではあまり影響はない)

(5.201)(5.201)式について(5.202)(5.202)式を用いて書き表すと

Ωn=12k(iτniynkxni)2xn=12k(i=1DJnkiτni)2xn \begin{aligned} \Omega_{n} &=\left.\frac{1}{2} \sum_{k}\left(\sum_{i} \tau_{n i} \frac{\partial y_{nk}}{\partial x_{n i}}\right)^{2}\right|_{\mathbf{x}_{n}} \\ &=\left.\frac{1}{2} \sum_{k}\left(\sum_{i=1}^{D} J_{nki} \tau_{n i}\right)^{2}\right|_{\mathbf{x}_{n}} \end{aligned}

すべてのnnについて足し合わせると

nΩn=12nk(i=1DJnkiτni)2 \sum_{n} \Omega_{n}=\frac{1}{2} \sum_{n} \sum_{k}\left(\sum_{i=1}^{D} J_{n k i} \tau_{n i}\right)^{2}

となり、(5.128)(5.128)式を得ることができる。

(5.204)(5.204)式について

αj=Gzj=iτixih(aj)=iτih(ai)ajxiai=h(aj)Gaj=h(aj)βjβj=Gaj=iτixilwjlzl=lwjl(irixizl)=lwjlGzl=lwjlαl \begin{aligned} \alpha_{j}=\mathcal{G} z_{j} &=\sum_{i} \tau_{i} \frac{\partial}{\partial x_{i}} h\left(a_{j}\right) \\ &=\sum_{i} \tau_{i} \frac{\partial h\left(a_{i}\right)}{\partial a_{j}} \frac{\partial}{\partial x_{i}} a_{i} \\ &=h^{\prime}\left(a_{j}\right) \mathcal{G} a_{j} \\ &=h^{\prime}\left(a_{j}\right) \beta_{j} \\ \beta_{j}=\mathcal{G} a_{j} &=\sum_{i} \tau_{i} \frac{\partial}{\partial x_{i}} \sum_{l} w_{j l} z_{l} \\ &=\sum_{l} w_{jl}\left(\sum_{i} r_{i} \frac{\partial}{\partial x_{i}} z_{l}\right) \\ &=\sum_{l} w_{jl} \mathcal{G}z_{l} \\ &=\sum_{l} w_{jl} \alpha_{l} \end{aligned}

より、(5.204)(5.204)式が示された。また、インプット層について計算をさらに進めると

βnj=lwjlαnl=lwjlGxnl=lwjllτnlxnlxnl=lwjlτnl \begin{aligned} \beta_{n j} &=\sum_{l} w_{j l} \alpha_{n l} \\ &=\sum_{l} w_{jl} \mathcal{G} x_{n l} \\ &=\sum_{l} w_{jl} \sum_{l^{\prime}} \tau_{nl^{\prime}} \frac{\partial x_{nl}}{\partial x_{n l^{\prime}}} \\ &=\sum_{l} w_{jl} \tau_{nl} \end{aligned}

となりτn\tau_{n}(5.204)(5.204)式によって順伝播していることが示された。

(5.206)(5.206)式について

Ωnwrs=12wrsk(Gynk)2=k(Gynk)wrsGynk=kαnkwrsiτixniynk=kαnkiτixni(wrsynk)=kαnk(G(δnkrzns))(ynkwrs=ynkanranrwrs=δnkrzns(eq 5.52))=kαnk((Gδnkr)zns+δnkr(Gzns))=kαnk{ϕnkrzns+δnkrαns} \begin{aligned} \frac{\partial \Omega_{n}}{\partial w_{r s}} &=\frac{1}{2} \frac{\partial}{\partial w_{rs}} \sum_{k}\left(\mathcal{G}y_{n k}\right)^{2} \\ &=\sum_{k}\left(\mathcal{G}y_{n k}\right) \frac{\partial}{\partial w_{r s}} \mathcal{G} y_{n k} \\ &=\sum_{k} \alpha_{n k} \frac{\partial}{\partial w_{r s}} \sum_{i} \tau_{i} \frac{\partial}{\partial x_{n i}} y_{n k} \\ &=\sum_{k} \alpha_{n k} \sum_{i} \tau_{i} \frac{\partial}{\partial x_{n i}}\left(\frac{\partial}{\partial w_{r s}} y_{n k}\right) \\ &=\sum_{k} \alpha_{n k}\left( \mathcal{G} \left(\delta_{nkr} z_{n s}\right)\right) \quad \left( \because \frac{\partial y_{n k}}{\partial w_{r s}}=\frac{\partial y_{n k}}{\partial a_{n r}} \frac{\partial a_{n r}}{\partial w_{r s}}=\delta_{nkr} z_{ns} \quad (\textrm{eq}\ 5.52)\right)\\ &=\sum_{k} \alpha_{n k}\left( (\mathcal{G} \delta_{n k r}) z_{n s}+\delta_{n k r}\left(\mathcal{G} z_{n s}\right)\right) \\ &=\sum_{k} \alpha_{n k}\left\{\phi_{n k r} z_{n s}+\delta_{nkr} \alpha_{n s}\right\} \end{aligned}

δnkr\delta_{nkr}についての逆伝播方程式は

δnkrynkanr=lynkanlanlanr=lynkanlanr(rwlrh(anr))=h(anr)lwlrynkanl=h(anr)lwlrδnkl \begin{aligned} \delta_{nkr} \equiv \frac{\partial y_{nk}}{\partial a_{n r}} &=\sum_{l} \frac{\partial y_{n k}}{\partial a_{n l}} \frac{\partial a_{n l}}{\partial a_{n r}} \\ &=\sum_{l} \frac{\partial y_{n k}}{\partial a_{n l}} \frac{\partial}{\partial a_{n r}}\left(\sum_{r} w_{lr} h\left(a_{n r}\right)\right) \\ &=h^{\prime}(a_{nr})\sum_{l}w_{lr}\frac{\partial y_{nk}}{\partial a_{nl}} \\ &=h^{\prime}(a_{nr})\sum_{l}w_{lr}\delta_{nkl} \end{aligned}

となり、これを用いたϕnkr\phi_{nkr}を評価する逆伝播方程式は

ϕnkrGδnkr=irixi(h(anr)lwlrδnkl)=iτi{(xih(anr))lwlrδnkl+h(anr)(xilwlrδnkl)}=iτi(h(anr)anrxi)lwlrδnkl+h(anr)lwlrGδnkl=h(anr)Ganrlwlrδnkl+h(anr)lwlrGδnkl=h(anr)βnrlwlrδnkl+h(anr)lwlrGδnkl \begin{aligned} \phi_{n k r} \equiv \mathcal{G} \delta_{n k r} &=\sum_{i} r_{i} \frac{\partial}{\partial x_{i}}\left(h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \delta_{n k l}\right) \\ &=\sum_{i} \tau_{i}\left\{\left(\frac{\partial}{\partial x_{i}} h^{\prime}\left(a_{n r}\right)\right) \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right)\left(\frac{\partial}{\partial x_{i}} \sum_{l} w_{lr} \delta_{n k l}\right)\right\} \\ &=\sum_{i} \tau_{i}\left(h^{\prime \prime}\left(a_{n r}\right) \frac{\partial a_{n r}}{\partial x_{i}}\right) \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \mathcal{G} \delta_{nkl} \\ &=h^{\prime \prime}\left(a_{n r}\right) \mathcal{G} a_{n r} \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \mathcal{G} \delta_{nkl} \\ &=h^{\prime \prime}\left(a_{n r}\right) \beta_{n r} \sum_{l} w_{lr} \delta_{nkl}+h^{\prime}\left(a_{n r}\right) \sum_{l} w_{lr} \mathcal{G} \delta_{nkl} \end{aligned}

と書き下せる。

演習 5.27

変換がランダムノイズの加算xx+ξ\mathbf{x}\to\mathbf{x}+\boldsymbol{\xi}のみであるという特別な場合について,変換されたデータを訓練する枠組みを考える.ただし,ξ\boldsymbol{\xi}は平均がゼロ,分散が単位行列のガウス分布を持つとする.5.5.5節での議論と類似の議論に従って,結果として得られる正則化項はTikhonov正則化項

Ω=12y(x)2p(x)dx(5.135) \Omega=\frac{1}{2} \int\|\nabla y(\mathbf{x})\|^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x} \tag{5.135}

に帰着することを示せ.


s(x,ξ)=x+ξ\mathbf{s}(\mathbf{x},\boldsymbol{\xi}) = \mathbf{x} + \boldsymbol{\xi}である特別な場合において5.5.55.5.5節の議論を展開する。(5.130)(5.130)式に導入してΩ\Omegaを計算すれば良いのだが、ベクトルの場合のテイラー展開などを丁寧に考える必要があるので計算は大変……というか難しすぎる?

まずy(s(x,ξ))=y(x+ξ)y(\mathbf{s}(\mathbf{x},\boldsymbol{\xi})) = y(\mathbf{x}+\boldsymbol{\xi})ξ\boldsymbol{\xi}でテイラー展開すると

y(x+ξ)=y(x)+y(x)ξ+12ξTy(x)ξ+O(ξ3) y(\mathbf{x}+\boldsymbol{\xi}) = y(\mathbf{x}) + \nabla y(\boldsymbol{x})\boldsymbol{\xi} + \frac{1}{2}\boldsymbol{\xi}^{\mathrm{T}}\nabla \nabla y(\mathbf{x}) \boldsymbol{\xi}+O(\boldsymbol{\xi}^3)

ここで、y(x)\nabla y(\mathbf{x})yξi\frac{\partial y}{\partial \xi_i}を成分とする行ベクトル(なのでy(x)ξ\nabla y(\boldsymbol{x})\boldsymbol{\xi}はスカラー値)である。これより

{y(x+ξ)t}2={(y(x)t)+y(x)ξ+12ξTy(x)ξ+O(ξ3)}2=(y(x)t)2+(y(x)ξ)2+2y(x)ξ(y(x)t)+ξTy(x)ξ(y(x)t)+O(ξ3) \begin{aligned} \{y(\mathbf{x}+\boldsymbol{\xi})-t\}^{2} &=\left\{(y(\mathbf{x})-t)+\nabla y(\mathbf{x}) \boldsymbol{\xi}+\frac{1}{2} \boldsymbol{\xi}^{\mathrm{T}} \nabla \nabla y(\mathbf{x}) \boldsymbol{\xi}+O\left(\boldsymbol{\xi}^{3}\right)\right\}^{2} \\ &=(y(\mathbf{x})-t)^{2}+(\nabla y(\mathbf{x}) \boldsymbol{\xi})^{2}+2 \nabla y(\mathbf{x}) \boldsymbol{\xi}(y(\mathbf{x})-t) +\boldsymbol{\xi}^{\mathrm{T}} \nabla \nabla y(\mathbf{x}) \boldsymbol{\xi}(y(\mathbf{x})-t)+O(\boldsymbol{\xi}^{3}) \end{aligned}

となる。
この式と、以下の計算

(y(x)ξ)2=ξTy(x)Ty(x)ξξp(ξ)dξ=E[ξ]=0,p(ξ)dξ=1 \begin{aligned} (\nabla y(\mathbf{x}) \boldsymbol{\xi})^{2} &=\boldsymbol{\xi}^{\mathrm{T}} \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x}) \boldsymbol{\xi}\\ \int \boldsymbol{\xi} p(\boldsymbol{\xi}) d \boldsymbol{\xi} &=\mathbb{E}[\boldsymbol{\xi}]=0, \int p(\boldsymbol{\xi}) d \boldsymbol{\xi}=1 \end{aligned}

を用いて(5.130)(5.130)式に代入すると

E~=12{y(x)t}2p(tx)p(x)p(ξ)dξdxdt+y(x)ξp(ξ)dξ(y(x)t)p(tx)p(x)dxdt+12ξTy(x)(y(x)t)ξp(tx)p(x)dxdtdξ+12ξTy(x)Ty(x)ξp(tx)p(x)dxdtdξ=12{y(x)t}2p(tx)p(x)dxdt+E[ξ]y(x)(y(x)t)p(tx)p(x)dxdt+12ξT[(y(x)t)y(x)+y(x)Ty(x)]ξp(ξ)p(tx)p(x)p(ξ)dxdtdξE+Ω \begin{aligned} \tilde{E} &= \frac{1}{2} \iint\{y(\mathbf{x})-t\}^{2} p(t \mid \mathbf{x}) p(\mathbf{x}) \int p(\boldsymbol{\xi}) d \boldsymbol{\xi} d \mathbf{x} d t + \iiint \nabla y(\mathbf{x})\boldsymbol{\xi} p(\boldsymbol{\xi}) d \boldsymbol{\xi} (y(\mathbf{x})-t) p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t \\ &+\frac{1}{2} \iiint \boldsymbol{\xi}^{\mathrm{T}} \nabla \nabla y(\mathbf{x})(y(\mathbf{x})-t) \boldsymbol{\xi} p(t \mid \mathbf{x})p(\mathbf{x}) d \mathbf{x} d t d \boldsymbol{\xi} \\ &+\frac{1}{2} \iiint \boldsymbol{\xi}^{\mathrm{T}} \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x}) \boldsymbol{\xi} p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t d \boldsymbol{\xi} \\ &= \frac{1}{2} \iint\{y(\mathbf{x})-t\}^{2} p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t + \mathbb{E}[\boldsymbol{\xi}] \iiint \nabla y(\mathbf{x})(y(\mathbf{x})-t) p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} d t \\ &+ \frac{1}{2}\iiint \boldsymbol{\xi}^{\mathrm{T}} \left[ (y(\mathbf{x})-t)\nabla \nabla y(\mathbf{x}) + \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(t \mid \mathbf{x}) p(\mathbf{x}) p(\boldsymbol{\xi}) d \mathbf{x} dt d \boldsymbol{\xi} \\ &\equiv E + \Omega \end{aligned}

となる(これ正則化係数λ\lambdaがないけれどいいんですかね?)。ここで、EEはもとの二乗和誤差関数であり、Ω\Omega

Ω=12ξT[(y(x)t)y(x)+y(x)Ty(x)]ξp(ξ)p(tx)p(x)dxdtdξ=12ξT[{y(x)E[tx]}y(x)+y(x)Ty(x)]ξp(ξ)p(x)dxdξ \begin{aligned} \Omega &= \frac{1}{2}\iiint \boldsymbol{\xi}^{\mathrm{T}} \left[ (y(\mathbf{x})-t)\nabla \nabla y(\mathbf{x}) + \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(t \mid \mathbf{x}) p(\mathbf{x}) d \mathbf{x} dt d \boldsymbol{\xi} \\ &= \frac{1}{2}\iint \boldsymbol{\xi}^{\mathrm{T}} \left[ \left\{ y(\mathbf{x})-\mathbb{E}[t\mid \mathbf{x}]\right\}\nabla \nabla y(\mathbf{x}) + \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(\mathbf{x}) d \mathbf{x} d \boldsymbol{\xi}\end{aligned}

で与えられる関数である。

ここで、1.5.5節の議論と(5.133)(5.133)の式から正則化項Ω\Omegaの括弧内の第1項は

y(x)E[tx]=O(ξ) y(\mathbf{x})-\mathbb{E}[t\mid \mathbf{x}] = O(\boldsymbol{\xi})

となるのに対し、Ω\OmegaO(ξ3)O(\boldsymbol{\xi}^3)の項を無視していることから、上のΩ\Omegaで残るのは

Ω12ξT[y(x)Ty(x)]ξp(ξ)p(x)dxdξ \Omega \simeq \frac{1}{2}\iint \boldsymbol{\xi}^{\mathrm{T}} \left[ \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right] \boldsymbol{\xi} p(\boldsymbol{\xi}) p(\mathbf{x}) d \mathbf{x} d \boldsymbol{\xi}

となり、これは

Ω12ξT(y(x)Ty(x))ξp(ξ)p(x)dξdx=12Tr[(ξξT)(y(x)Ty(x))]p(ξ)p(x)dξdx=12Tr[I(y(x)Ty(x))]p(x)dx=12y(x)Ty(x)p(x)dx=12y(x)2p(x)dx \begin{aligned} \Omega & \simeq \frac{1}{2} \iint \boldsymbol{\xi}^{\mathrm{T}}\left(\nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right) \boldsymbol{\xi} p(\boldsymbol{\xi}) p(\mathbf{x}) \mathrm{d} \boldsymbol{\xi} \mathrm{d} \mathbf{x} \\ &=\frac{1}{2} \iint \operatorname{Tr}\left[\left(\boldsymbol{\xi} \boldsymbol{\xi}^{\mathrm{T}}\right)\left(\nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right)\right] p(\boldsymbol{\xi}) p(\mathbf{x}) \mathrm{d} \boldsymbol{\xi} \mathrm{d} \mathbf{x} \\ &=\frac{1}{2} \int \operatorname{Tr}\left[\mathbf{I}\left(\nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x})\right)\right] p(\mathbf{x}) \mathrm{d} \mathbf{x} \\ &=\frac{1}{2} \int \nabla y(\mathbf{x})^{\mathrm{T}} \nabla y(\mathbf{x}) p(\mathbf{x}) \mathrm{d} \mathbf{x}=\frac{1}{2} \int\|\nabla y(\mathbf{x})\|^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x} \end{aligned}

となる。ここで、ξ\boldsymbol{\xi}が平均0\mathbf{0},分散が単位行列のガウス分布なので(2.62)(2.62)式からE(ξξT)=I\mathbb{E}(\boldsymbol{\xi} \boldsymbol{\xi}^{\mathrm{T}}) = \mathbf{I}となることを用いた。

演習 5.28

5.5.6節で議論したたたみ込みニューラルネットワークのような,複数の重みが同じ値を持つように制約されているニューラルネットワークを考える.そのような制約条件を満たすためには,ネットワーク内の調整可能なパラメータに関する誤差関数の微分を評価する際に,標準的な逆伝播アルゴリズムをどのように変更しなければならないかを議論せよ.


P.270の畳み込みニューラルネットワークでは、局所的受容野を用いることで、それぞれの特徴マップのユニットは画像の小さな部分領域だけから入力を受け、同じ特徴マップに属するユニットはすべて同一の重みの値を共有するように制約される。
この修正は畳み込み層の重みに関する導関数にのみ影響する。特徴マップ内のユニット(インデックスmm)は異なる入力を持つが、すべて共通の重みベクトルw(m)\mathbf{w}^{(m)}を共有する。したがって、特徴マップ内のすべてのユニットからの誤差δ(m)\delta^{(m)}は、対応する重みベクトルの導関数に寄与する。この状況では、(5.50)(5.53)(5.50)-(5.53)の記述

Enwji=Enajajwji=δjzi \frac{\partial E_n}{\partial w_{j i}}=\frac{\partial E_n}{\partial a_j} \frac{\partial a_j}{\partial w_{j i}}=\delta_{j}z_{i}

Enwi(m)=jEnaj(m)aj(m)wi(m)=jδj(m)zji(m)(A) \frac{\partial E_n}{\partial w_i^{(m)}}=\sum_j \frac{\partial E_n}{\partial a_j^{(m)}} \frac{\partial a_j^{(m)}}{\partial w_i^{(m)}}=\sum_j \delta_j^{(m)} z_{j i}^{(m)} \tag{A}

のように書き換えられる。ここで、aj(m)a_{j}^{(m)}mm番目の特徴マップの中のjj番目のactivation、wi(m)w_i^{(m)}は対応する特徴量ベクトルのii番目の要素、そしてzji(m)z_{j i}^{(m)}mm番目の特徴マップの中のjj番目のユニットのii番目のインプットを、それぞれ表している。後者zji(m)z_{j i}^{(m)}は実際のインプットまたはひとつ前のレイヤーの出力である。

δj(m)=Enaj(m)\displaystyle \delta_{j}^{(m)} = \frac{\partial E_n}{\partial a_j^{(m)}}は通常、

δj(m)Enaj(m)=kEnak(m)ak(m)aj(m)(5.55) \delta_{j}^{(m)} \equiv \frac{\partial E_n}{\partial a_j^{(m)}}=\sum_k \frac{\partial E_n}{\partial a_k^{(m)}} \frac{\partial a_k^{(m)}}{\partial a_j^{(m)}} \tag{5.55}

を用いて、次の層のユニットのδ\deltaから再帰的に計算されることに注意する。つまり、

Enwi(m)=jEnaj(m)aj(m)wi(m)=jkEnak(m)ak(m)aj(m)zji(m) \frac{\partial E_n}{\partial w_i^{(m)}}=\sum_j \frac{\partial E_n}{\partial a_j^{(m)}} \frac{\partial a_j^{(m)}}{\partial w_i^{(m)}}=\sum_j \sum_k \frac{\partial E_n}{\partial a_k^{(m)}} \frac{\partial a_k^{(m)}}{\partial a_j^{(m)}} z_{j i}^{(m)}

となるはずである。しかし、畳み込みニューラルネットワークの場合はこの重みをすべて同一の重みとして扱えるように制約をいれるようにしている、すなわち、前の層のユニットのδ\deltaを計算するときにこの重みを独立したパラメータであるかのように扱って計算することができる。これによって、(A)のように計算することができ、ネットワークの重みと,データから訓練すべき独立パラメータの数を少なくしている。

演習 5.29

E~wi=Ewi+λjγj(wi)(wiμj)σj2(5.141) \frac{\partial \widetilde{E}}{\partial w_{i}}=\frac{\partial E}{\partial w_{i}}+\lambda\sum_{j} \gamma_{j}\left(w_{i}\right) \frac{\left(w_{i}-\mu_{j}\right)}{\sigma_{j}^{2}} \tag{5.141}

の結果を確かめよ.


テキストの(5.141)(5.141)式ではλ\lambdaが抜けている誤植がある(5.142)(5.142),(5.143)(5.143)も同様。

(5.139)(5.139)を用いるが、(5.139)(5.139)式は(5.138)(5.138)式に依存しているので先に(5.138)(5.138)式のwiw_iについての微分を取る。このとき、(1.46)(1.46)式の微分を先に計算しておく。

N(xμ,σ2)=12πσ2exp{(xμ)22σ2}(1.46) \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\} \tag{1.46}

の微分形は

Nx=(xμ)σ2N(xμ,σ2) \frac{\partial \mathcal{N}}{\partial x}=-\frac{(x-\mu)}{\sigma^{2}} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)

である。

Ω(w)=iln(j=1MπjN(wiμj,σj2))(5.138) \Omega(\mathbf{w})=-\sum_{i} \ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right) \tag{5.138}

wiw_iについての微分を取ると

Ωwi=1k=1MπkN(wiuk,σk2)j=1Mπj(N(wiμi,σj2)wi)=1k=1MπkN(wiμk,σk2)j=1MπjN(wiμj,σj2)(wiμj)σ2 \begin{aligned} \frac{\partial \Omega}{\partial w_{i}} &= \frac{-1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid u_{k}, \sigma_{k}^{2}\right)} \sum_{j=1}^{M} \pi_{j} \left(\frac{\partial \mathcal{N}\left(w_{i} \mid \mu_{i}, \sigma_{j}^{2}\right)}{\partial w_{i}}\right) \\ &= \frac{1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)} \sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right) \frac{\left(w_{i}-\mu_{j}\right)}{\sigma^{2}} \end{aligned}

これをE~(w)=E(w)+λΩ(w)(5.139)\tilde{E}(\mathbf{w})=E(\mathbf{w})+\lambda \Omega(\mathbf{w})\hspace{1em}(5.139)式の微分形

E~wi=Ewi+λΩwi \frac{\partial \widetilde{E}}{\partial w_{i}}=\frac{\partial E}{\partial w_{i}}+\lambda \frac{\partial \Omega}{\partial w_{i}}

に代入すると

E~wi=Ewi+λjγj(wi)(wiμj)σj2, where γj(wi)=πjN(wiμj,σj2)kπkN(wiμk,σk2)(5.141) \frac{\partial \widetilde{E}}{\partial w_{i}}=\frac{\partial E}{\partial w_{i}}+\lambda\sum_{j} \gamma_{j}\left(w_{i}\right) \frac{\left(w_{i}-\mu_{j}\right)}{\sigma_{j}^{2}},\ \textrm{where}\ \gamma_{j}(w_{i})=\frac{\pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}{\sum_{k} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)} \tag{5.141}

が得られる。

演習 5.30

E~μj=λiγj(wi)(μjwi)σj2(5.142) \frac{\partial \widetilde{E}}{\partial \mu_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right) \frac{\left(\mu_{j}-w_{i}\right)}{\sigma_{j}^{2}} \tag{5.142}

の結果を確かめよ.


※テキストの(5.142)(5.142)でもλ\lambdaが抜けている誤植があるので注意。

μj\mu_jEEの項には現れずΩ(w)\Omega(\mathbf{w})の項にのみ現れるので、(5.139)(5.139)式の微分は

E~μj=λΩμj \frac{\partial \widetilde{E}}{\partial \mu_j}=\lambda \frac{\partial \Omega}{\partial \mu_j}

となる。(5.138)(5.138)式のμj\mu_jについての微分は

Ωμj=i1k=1MπkN(wiμkσk2)πjN(wiμj,σj2)wiμjσj2=iγj(wi)wiμjσj2 \begin{aligned} \frac{\partial \Omega}{\partial \mu_{j}} &=-\sum_{i} \frac{1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k} \sigma_{k}^{2}\right)} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right) \frac{w_{i}-\mu_{j}}{\sigma_{j}^{2}} \\ &=-\sum_{i} \gamma_{j}\left(w_{i}\right) \frac{w_{i}-\mu_{j}}{\sigma_{j}^{2}} \end{aligned}

よって

E~μj=λiγj(wi)(μjwi)σj2(5.142) \frac{\partial \widetilde{E}}{\partial \mu_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right) \frac{\left(\mu_{j}-w_{i}\right)}{\sigma_{j}^{2}} \tag{5.142}

を得る。

演習 5.31

E~σj=λiγj(wi)(1σj(wiμj)2σj3)(5.143) \frac{\partial \tilde{E}}{\partial \sigma_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right) \tag{5.143}

の結果を確かめよ.


※ 演習問題 5.29, 5.30と同様。テキストの(5.143)(5.143)でもλ\lambdaが抜けている誤植があるので注意。

(5.139)より E~(w)=E(w)+λΩ(w)\tilde{E}(\mathbf{w}) = E (\mathbf{w}) + \lambda \Omega(\mathbf{w})
(5.138)より Ω(w)=Σiln(Σj=1MπjN(wjµj,σj2))\Omega(\mathbf{w}) = - \Sigma_i \ln (\Sigma_{j=1}^M \pi_j \mathcal{N} (w_j|µ_j,\sigma_j^2))

E(w)σj=0\frac{\partial E(\mathbf{w})}{\partial \sigma_j}=0 なので

E~(w)σj=λΩσj=λσj(Σiln(Σj=1MπjN(wjµj,σj2))) \begin{align} \frac{\partial \tilde E(\mathbf{w})}{\partial \sigma_j} &= \lambda\frac{\partial \Omega }{\partial \sigma_j}\\ &= \lambda\frac{\partial}{\partial \sigma_j} (- \Sigma_i \ln (\Sigma_{j=1}^M \pi_j \mathcal{N} (w_j|µ_j,\sigma_j^2))) \\ \end{align}

ガウス分布について

N(xµ,σ)=12πσ2exp(xµ)22σ2\mathcal{N}(x|µ, \sigma) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp -\frac{(x-µ)^2}{2\sigma^2}

であるので

Nσj=(2π)12[σj2exp{(wiμj)22σj2}+σj1σj3(wiμj)2exp{(wiμj)22σj2}]=(2π)12(σj2+(wiμj)2σj4)exp{(wiμj)22σj2}=(1σj(wiμj)2σj3)N(wiμj,σj2) \begin{aligned} \frac{\partial \mathcal{N}}{\partial \sigma_{j}} &=(2 \pi)^{-\frac{1}{2}}\left[-\sigma_{j}^{-2} \exp \left\{-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right\}+\sigma_{j}^{-1} \sigma_{j}^{-3}\left(w_{i}-\mu_{j}\right)^{2}\exp \left\{-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right\} \right]\\ &=(2 \pi)^{-\frac{1}{2}}\left(-\sigma_{j}^{-2}+\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{-4}}\right) \exp \left\{-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right\} \\ &=-\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right) \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right) \end{aligned}

より、

Ωσj=i1k=1MπkN(wiμk,σk2)πjNσj=iπj{1σj+(wjµj)2σj3}N(wjµj,σj2)Σj=1MπkN(wiµk,σk2) \begin{aligned} \frac{\partial \Omega}{\partial \sigma_{j}} &=-\sum_{i} \frac{1}{\sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)} \pi_{j} \frac{\partial \mathcal{N}}{\partial \sigma_{j}} \\ &= -\sum_{i} \frac{\pi_j\{-\frac{1}{\sigma_j}+\frac{(w_j-µ_j)^2}{\sigma^3_j}\}{\mathcal{N}(w_j|µ_j,\sigma_j^2)}}{\Sigma^M_{j=1}\pi_k\mathcal{N}(w_i|µ_k,\sigma_k^2) } \end{aligned} (5.140)
Ωσj=iγj(wi)(1σj(wiμj)2σj3) \frac{\partial \Omega}{\partial \sigma_{j}} =\sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right)

よって

E~σj=λiγj(wi)(1σj(wiμj)2σj3)(5.143) \frac{\partial \tilde{E}}{\partial \sigma_{j}}=\lambda \sum_{i} \gamma_{j}\left(w_{i}\right)\left(\frac{1}{\sigma_{j}}-\frac{\left(w_{i}-\mu_{j}\right)^{2}}{\sigma_{j}^{3}}\right) \tag{5.143}

を得る。

演習 5.32

πj=exp(ηj)k=1Mexp(ηk)(5.146) \pi_{j}=\frac{\exp \left(\eta_{j}\right)}{\sum_{k=1}^{M} \exp \left(\eta_{k}\right)} \tag{5.146}

で定義される混合係数{πk}\{\pi_k \}の補助パラメータ{ηj}\{ \eta_j \}に関する微分が

πkηj=δjkπjπjπk(5.208) \frac{\partial \pi_{k}}{\partial \eta_{j}}=\delta_{j k} \pi_{j}-\pi_{j} \pi_{k} \tag{5.208}

で与えられることを示せ.また,すべてのiiについてkγk(wi)=1\sum_k \gamma_k (w_i)=1という制約条件を利用して,

E~ηj=λi{πjγj(wi)}(5.147) \frac{\partial \widetilde{E}}{\partial \eta_{j}}=\lambda \sum_{i}\left\{\pi_{j}-\gamma_{j}\left(w_{i}\right)\right\} \tag{5.147}

の結果を導け.


テキストの(5.147)(5.147)式でもλ\lambdaが抜けている誤植がある

前半部分は演習問題4.17と同じなので省略。ただ、文字kk,jjがややこしいので

πk=exp(ηk)j=1Mexp(ηj)(5.146) \pi_{k}=\frac{\exp \left(\eta_{k}\right)}{\sum_{j=1}^{M} \exp \left(\eta_{j}\right)} \tag{5.146}

をもとに偏微分し、j=kj=kjkj\neq kの場合に分けて考える。結果的に(5.208)(5.208)式が求まる。

後半は演習問題5.31までと同様に解いていく。

E~ηj=λΩ(w)ηj=ληj{iln(j=1MπjN(wiμj,σj2))}=λiηj{ln(j=1MπjN(wiμj,σj2))}=λi1j=1MπjN(wiμj,σj2)k=1Mηj{πkN(wiμk,σk2)}=λi1j=1MπjN(wiμj,σj2)k=1Mπk{πkN(wiμk,σk2)}πkηj=λi1j=1MπjN(wiμj,σj2)k=1MN(wiμk,σk2)(δkjπjπjπk)=λi1j=1MπjN(wiμj,σj2){πjN(wiμj,σj2)πjk=1MπkN(wiμk,σk2)}=λi{πjN(wiμj,σj2)j=1MπjN(wiμj,σj2)πjk=1MπkN(wiμk,σk2))j=1MπjN(wiμj,σj2)}=λi{γj(wi)πj}=λi{πjγj(wi)} \begin{aligned} \frac{\partial \widetilde{E}}{\partial \eta_{j}} &=\lambda \frac{\partial \Omega(\mathbf{w})}{\partial \eta_{j}} \\ &=-\lambda \frac{\partial}{\partial \eta_{j}}\left\{\sum_{i} \ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right)\right\} \\ &=-\lambda \sum_{i} \frac{\partial}{\partial \eta_{j}}\left\{\ln \left(\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)\right)\right\} \\ &=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)} \sum_{k=1}^{M} \frac{\partial}{\partial \eta_{j}}\left\{\pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right\} \\ &=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)} \sum_{k=1}^{M} \frac{\partial}{\partial \pi_{k}}\left\{\pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right\} \frac{\partial \pi_{k}}{\partial \eta_{j}} \\ &=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)} \sum_{k=1}^{M} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\left(\delta_{kj} \pi_{j}-\pi_{j} \pi_{k}\right) \\ &=-\lambda \sum_{i} \frac{1}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}\left\{\pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)- \pi_{j} \sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right\} \\ &=-\lambda \sum_{i}\left\{\frac{\pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}-\frac{\left.\pi_{j} \sum_{k=1}^{M} \pi_{k} \mathcal{N}\left(w_{i} \mid \mu_{k}, \sigma_{k}^{2}\right)\right)}{\sum_{j=1}^{M} \pi_{j} \mathcal{N}\left(w_{i} \mid \mu_{j}, \sigma_{j}^{2}\right)}\right\} \\ &=-\lambda \sum_{i}\left\{\gamma_{j}\left(w_{i}\right)-\pi_{j}\right\} \\ &=\lambda \sum_{i}\left\{\pi_{j}-\gamma_{j}\left(w_{i}\right)\right\} \end{aligned}

ちなみに後半部分の別解がある。

Just as in Solutions 5.30 and 5.31, jj only affect E~\widetilde{E} through Ω\Omega. However, jj will affect kk for all values of kk (not just j=kj = k). Thus we have

Ωηj=kΩπkπkηj(192)\frac{\partial \Omega}{\partial \eta_{j}}=\sum_{k} \frac{\partial \Omega}{\partial \pi_{k}} \frac{\partial \pi_{k}}{\partial \eta_{j}} \tag{192}

From (5.138)(5.138) and (5.140)(5.140), we get
Ωπk=iγk(wi)πk\frac{\partial \Omega}{\partial \pi_{k}}=-\sum_{i} \frac{\gamma_{k}\left(w_{i}\right)}{\pi_{k}}

Substituting this and (5.208)(5.208) into (192)(192) yields
Ωηj=E~ηj=kiγk(wi)πk{δjkπjπjπk}=i{πjγj(wi)}\begin{aligned}\frac{\partial \Omega}{\partial \eta_{j}} &=\frac{\partial \widetilde{E}}{\partial \eta_{j}}=-\sum_{k} \sum_{i} \frac{\gamma_{k}\left(w_{i}\right)}{\pi_{k}}\left\{\delta_{j k} \pi_{j}-\pi_{j} \pi_{k}\right\} \\ &=\sum_{i}\left\{\pi_{j}-\gamma_{j}\left(w_{i}\right)\right\}\end{aligned}

where we have used the fact that kγk(wi)=1\sum_{k} \gamma_{k}\left(w_{i}\right)=1 for all ii.

演習 5.33

図5.18に示すロボットアームのデカルト座標(x1,x2)(x_1, x_2)を表す2つの方程式を関節角θ1,θ2\theta_1, \theta_2とリンクの長さL1,L2L_1, L_2で書き下せ.ここで,座標系の原点は下側のアームの接続点で与えられるとせよ.これらの方程式は,ロボットアームの「順運動学」を定義する.


x1=L1cosθ1+L2cos(θ1+θ2π)=L1cosθ1L2cos(θ1+θ2) \begin{aligned} x_1 &= L_1\cos{\theta_1} + L_2\cos{(\theta_1+\theta_2-\pi)} \\&= L_1\cos{\theta_1} - L_2\cos{(\theta_1+\theta_2)} \end{aligned}
x2=L1sinθ1+L2sin(θ1+θ2π)=L1sinθ1L2sin(θ1+θ2) \begin{aligned} x_2 &= L_1\sin{\theta_1} + L_2\sin{(\theta_1+\theta_2-\pi)} \\&= L_1\sin{\theta_1} - L_2\sin{(\theta_1+\theta_2)} \end{aligned}

演習 5.34

混合密度ネットワーク内の混合係数を制御するネットワークの出力活性に関する誤差関数の微分について,

Enakπ=πkγnk(5.155) \frac{\partial E_{n}}{\partial a_{k}^{\pi}}=\pi_{k}-\gamma_{n k} \tag{5.155}

の結果を導け.


※ソフトマックス関数のπk\pi_kk=1,,Kk=1, \cdots, Kに依存しているので

微分のchain ruleから(ソフトマックス関数のπk\pi_kk=1,,Kk=1, \cdots, Kに依存しているので\sumを使う)

Enakπ=j=1KEnπjπjakπ \frac{\partial E_{n}}{\partial a_{k}^{\pi}}=\sum_{j=1}^{K} \frac{\partial E_{n}}{\partial \pi_{j}} \frac{\partial \pi_{j}}{\partial a_{k}^{\pi}}

この第1項について

\frac{\partial E_{n}}{\partial \pi_{j}}=-\frac{\mathcal{N}_{n j}}{\sum_{l=1}^{K} \pi_{l} \mathcal{N}_{n l}}=-\frac{\gamma_{nj}}{\pi_{j}}\quad (\because (5.154))

第2項について(演習問題4.17を参照)

\begin{aligned} \frac{\partial \pi_{j}}{\partial a_{k}^{\pi}} &=\frac{\partial}{\partial a_{k}^{\pi}}\left(\frac{e^{a_{j}^{\pi}}}{\sum_{l=1}^{K} e^{a_{l}^{\pi}}}\right) \\ &=\pi_{j}\left(\delta_{k j}-\pi_{k}\right) \end{aligned}

よって、この二式を結合させると

\begin{aligned} \frac{\partial E_{n}}{\partial a_{k}^{\pi}} &=\sum_{j=1}^{K}\left(-\frac{\gamma_{nj}}{\pi_{j}}\right) \pi_{j}\left(\delta_{k j}-\pi_{k}\right) \\ &=\sum_{j=1}^{K} \gamma_{nj}\left(\pi_{k}-\delta_{k j}\right) \\ &=-\gamma_{n_{k}}+\sum_{j=1}^{K} \gamma_{n j} \pi_{k} \\ &=\pi_{k}-\gamma_{n k}\left(\because \sum_{j=1}^{K} \gamma_{nj}=1\right) \end{aligned}

以上から(5.155)式が示された。

演習 5.35

混合密度ネットワーク内の各要素の平均を制御するネットワークの出力活性に関する誤差関数の微分について,

\frac{\partial E_{n}}{\partial a_{k l}^{\mu}}=\gamma_{n k}\left\{\frac{\mu_{k l}-t_{n l}}{\sigma_{k}^{2}}\right\} \tag{5.156}

の結果を導け.


a_{k l}^{\mu}=\mu_{k l}\tag{5.152}

より

\frac{\partial E_{n}}{\partial a_{k l}^{\mu}}=\frac{\partial E_{n}}{\partial \mu_{k l}}

が得られる。

\partial E_{n}=-{\sum_{n=1}^N}\ln \bigg({\sum_{k=1}} \pi_k \mathcal{N}_{n k}\bigg)\tag{5.153}
\gamma_{n k}=\frac{\pi_k \mathcal{N}_{n k}}{\sum_{l=1}^K\pi_l \mathcal{N}_{n l}}\tag{5.154}

これらと(2.43)のガウス分布の式を用いると以下のように導ける。

\begin{aligned} \frac{\partial E_{n}}{\partial \mu_{k l}} &=-\frac{\pi_k}{{\sum_{k=1}} \pi_k \mathcal{N}_{n k}} \cdot \mathcal{N}_{n k} \cdot \frac{t_{n l}-\mu_{k l}}{\sigma^2} \\ &=\gamma_{n k} \frac{\mu_{k l}-t_{n l}}{\sigma_{k}^2} \end{aligned}

演習 5.36

混合密度ネットワーク内の各要素の分散を制御するネットワークの出力活性に関する誤差関数の微分について,

\frac{\partial E_{n}}{\partial a_{k}^{\sigma}}=\gamma_{n k}\left(L-\frac{\left\|\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\right\|^{2}}{\sigma_{k}^{2}}\right) \tag{5.157}

の結果を導け.


微分のchain-ruleより

\frac{\partial E_{n}}{\partial a_{k}^{\sigma}}=\frac{\partial E_{n}}{\partial \sigma_{k}}\frac{\partial \sigma_{k}}{\partial a_{k}^{\sigma}}

第二項について

\sigma_{k}=\exp({a_{k}^{\sigma}})\tag{5.151}

より

\frac{\partial \sigma_{k}}{\partial a_{k}^{\sigma}}=\exp({a_{k}^{\sigma}})=\sigma_{k} (2.43)
\begin{aligned} \mathcal{N}_{n k}&=\frac{1}{{2 \pi}^{D/2}}\frac{1}{\vert{\sigma_{k^2} I}\vert}\exp\bigg({-\frac{1}{2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})^T \frac{1}{\sigma_k^2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})}\bigg)\\ &=\bigg(\frac{1}{2 \pi \sigma_k^2}\bigg)^{\frac{D}{2}}\exp\bigg({-\frac{1}{2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})^T \frac{1}{\sigma_k^2}(\mathbf{t}_{n}-\boldsymbol{\mu}_{k})}\bigg)\\ &=\bigg(\frac{1}{2 \pi \sigma_k^2}\bigg)^{\frac{D}{2}}\exp\bigg(-{\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg) \end{aligned}

第一項について変形したガウス分布の指揮,(1.153),(1.154)を用いて以下のように導ける。

\begin{aligned} \frac{\partial E_{n}}{\partial \sigma_{k}}&=\frac{\pi_k}{-{\sum_{k=1}^K}\pi_k \mathcal{N}_{n k}} \bigg(\frac{1}{2 \pi}\bigg)^{\frac{D}{2}}\bigg({-\frac{L}{\sigma^{L+1}}exp\bigg(-{\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg)+\frac{1}{\sigma_k^2}exp\bigg(-{\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg)\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)\\ &=\frac{\mathcal{N}_{n k}\pi_k}{-{\sum_{k=1}^K}\pi_k \mathcal{N}_{n k}} \bigg({-\frac{L}{\sigma_k}+\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)\\ &=\gamma_{n k}\bigg({\frac{L}{\sigma_k}-\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg) \end{aligned}

最後に求めた第一項と第二項を掛け合わせて(5.157)の結果を得られる。

\begin{aligned} \frac{\partial E_{n}}{\partial a_{k}^{\sigma}}&=\frac{\partial E_{n}}{\partial \sigma_{k}}\frac{\partial \sigma_{k}}{\partial a_{k}^{\sigma}}\\ &=\gamma_{n k}\bigg({\frac{L}{\sigma_k}-\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^3}}\bigg)\cdot \sigma_k \\ &=\gamma_{n k}\bigg({L-\frac{\Vert{\mathbf{t}_{n}-\boldsymbol{\mu}_{k}\Vert}^2}{\sigma_k^2}}\bigg) \end{aligned}

演習 5.37

混合密度ネットワークモデルの条件付き平均と分散について,

\mathbb{E}[\mathbf{t} \mid \mathbf{x}]=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}=\sum_{k=1}^{K} \pi_{k}(\mathbf{x}) \boldsymbol{\mu}_{k}(\mathbf{x}) \tag{5.158}

および

s^2(\mathbf{x})=\sum_{k=1}^{K} \pi_{k}(\mathbf{x})\left\{L\sigma_{k}^{2}(\mathbf{x})+\left\|\mu_{k}(\mathbf{x})-\sum_{l=1}^{K} \pi_{l}(\mathbf{x}) \mu_{l}(\mathbf{x})\right\|^{2}\right\} \tag{5.160}

の結果を確かめよ.


テキストの(5.160)式は間違っており、実際には\sigma_{k}^{2}(\mathbf{x})に係数Lがつくはずである。

p(\mathbf{t} \mid \mathbf{x})=\sum_{k=1}^{K} \pi_{k}(\mathbf{x}) \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}(\mathbf{x}), \sigma_{k}^{2}(\mathbf{x}) \mathbf{I}\right) \tag{5.148}

を利用してまず平均の\mathbb{E}[\mathbf{t}\mid \mathbf{x}]を計算すると

\begin{aligned} \mathbb{E}[\mathbf{t} \mid \mathbf{x}] &=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) d \mathbf{t} \\ &=\int \mathbf{t} \sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}, \sigma_{k}^{2}\mathbf{I}\right) d \mathbf{t} \\ &=\sum_{k=1}^{K} \pi_{k} \int \mathbf{t} \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}, \sigma_{k}^{2}\mathbf{I}\right) d \mathbf{t} \\ &=\sum_{k=1}^{K} \pi_{k} \boldsymbol{\mu}_{k} \end{aligned}

となる。次に分散はs^{2}(x)=\mathbb{E}\left[\mathbf{t}^{2} \mid \mathbf{x}\right]-\{\mathbb{E}[\mathbf{t} \mid \mathbf{x}]\}^{2}で求められるため、\mathbb{E}\left[\mathbf{t}^{2} \mid \mathbf{x}\right]を計算すると

\begin{aligned} \mathbb{E}\left[\mathbf{t}^{2} \mid \mathbf{x}\right] &=\mathbb{E}\left[\mathbf{t}^{\mathrm{T}} \mathbf{t} \mid \mathbf{x}\right] \\ &=\mathbb{E}\left[\operatorname{Tr}\left[\mathbf{t}^{\mathrm{T}} \mathbf{t}\right] \mid \mathbf{x}\right] \\ &=\mathbb{E}\left[\operatorname{Tr}\left[\mathbf{t}\mathbf{t}^{\mathrm{T}}\right] \mid \mathbf{x}\right] \\ &=\operatorname{Tr}\left[\int \mathbf{t}\mathbf{t}^{\mathrm{T}} \sum_{k=1}^{K} \pi_k \mathcal{N}\left(\mathbf{t} \mid \boldsymbol{\mu}_{k}, \sigma_{k}^{2} \mathbf{I}\right) d \mathbf{t}\right] \\ &=\sum_{k=1}^{K}\pi_k \operatorname{Tr}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm{T}}+\sigma_{k}^{2} \mathbf{I}\right] \\ &=\sum_{k=1}^{K}\pi_k \left(\left\|\boldsymbol{\mu}_{k}\right\|^{2}+L \sigma_{k}^{2}\right) \end{aligned}

ここで、L\mathbf{t}の次元数である(この計算本当に合ってるのか疑問)。途中の式変形では

\mathbb{E}\left[\mathbf{xx}^{\mathrm{T}}\right]=\boldsymbol{\mu \mu}^{\mathrm{T}}+\mathbf{\Sigma} \tag{2.62}

を用いた。

以上を用いて計算すると

\begin{aligned} s^{2}(\mathbf{x}) &= \sum_{k=1}^{K} \pi_{k}\left(L \sigma_{k}^{2}+\left\|\boldsymbol{\mu}_{k}\right\|^{2}\right)-\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\ &=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\ &=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-2 \times\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2}+1 \times\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\ &=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-2\left(\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right)\left(\sum_{k=1}^{K} \pi_{k} \boldsymbol{\mu}_{k}\right)+\left(\sum_{k=1}^{K} \pi_{k}\right)\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\ &=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}\right\|^{2}-2\left(\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right)\left(\sum_{k=1}^{K} \pi_{k} \boldsymbol{\mu}_{k}\right)+\sum_{k=1}^{K} \pi_{k}\left\|\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\ &=L \sum_{k=1}^{K} \pi_{k} \sigma_{k}^{2}+\sum_{k=1}^{K} \pi_{k}\left\|\boldsymbol{\mu}_{k}-\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2} \\ &=\sum_{k=1}^{K} \pi_{k}\left(L \sigma_{k}^{2}+\left\|\boldsymbol{\mu}_{k}-\sum_{l=1}^{K} \pi_{l} \boldsymbol{\mu}_{l}\right\|^{2}\right) \end{aligned}

以上から(5.160)式が導出された。

演習 5.38

一般的な結果

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}

を用いて,ベイズニューラルネットワークモデルのラプラス近似による予測分布

p(t \mid \mathbf{x}, \mathcal{D}, \alpha, \beta)=\mathcal{N}\left(t \mid y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right), \sigma^{2}(\mathbf{x})\right) \tag{5.172}

を導け.


(2.115)(5.172)式が一致するように変数の値を変換できれば題意を満たせる。

(5.173)式から、\sigma^2(\mathbf{x}) = \beta^{-1}+\mathbf{g}^{\mathrm T}\mathbf{A}^{-1}\mathbf{g}で定義されている。

(2.115)式と(5.172)式の比較から

\mathbf{y} \Rightarrow t,\quad \mathbf{L}^{-1} \Rightarrow \beta^{-1},\quad \mathbf{A} \Rightarrow \mathbf{g}^{\mathrm{T}},\quad\mathbf{\Lambda}^{-1} \Rightarrow \mathbf{A}^{-1}

となることはわかる。

\mathbf{A} \boldsymbol{\mu}+\mathbf{b} = y(\mathbf{x},\mathbf{w}_{\mathrm{MAP}})の関係は、ラプラス近似ではMAP(最大事後確率)解付近での近似なので\boldsymbol{\mu} \Rightarrow \mathbf{w}_{\mathrm{MAP}}とすればよく、このとき\mathbf{g}^{\mathrm T}\mathbf{w}_{\mathrm{MAP}} + \mathbf{b} = y(\mathbf{x},\mathbf{w}_{\mathrm{MAP}})なので、

\mathbf{b} \Rightarrow y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right)-\mathbf{g}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}

とすればよい。

以上の変数変換を適用すると、

\begin{aligned} p(t) &=\mathcal{N}\left(t \mid \mathbf{g}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right)-\mathbf{g}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}, \beta^{-1}+\mathbf{g}^{\mathrm{T}} \mathbf{A}^{-1} \mathbf{g}\right) \\ &=\mathcal{N}\left(t \mid y\left(\mathbf{x}, \mathbf{w}_{\mathrm{MAP}}\right), \sigma^{2}\right) \end{aligned}

となる。

演習 5.39

ラプラス近似の結果

\begin{aligned} Z &=\int f(\mathbf{z}) \mathrm{d} \mathbf{z} \\ & \simeq f\left(\mathbf{z}_{0}\right) \int \exp \left\{-\frac{1}{2}\left(\mathbf{z}-\mathbf{z}_{0}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{z}-\mathbf{z}_{0}\right)\right\} \mathrm{d} \mathbf{z} \\ &=f\left(\mathbf{z}_{0}\right) \frac{(2 \pi)^{M / 2}}{|\mathbf{A}|^{1 / 2}} \end{aligned} \tag{4.135}

を用いて,ベイズニューラルネットワークモデルにおける超パラメータ\alpha, \betaのエビデンス関数が

\ln p(\mathcal{D} \mid \alpha, \beta) \simeq-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi) \tag{5.175}

で近似できることを示せ.ただし

E\left(\mathbf{w}_{\mathrm{MAP}}\right)=\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}} \tag{5.176}

である。


※ やや計算量が多いが、ラプラス近似とガウス分布の計算さえしっかりすれば大丈夫。

まず(5.174)

p(\mathcal{D} \mid \alpha, \beta)=\int p(\mathcal{D} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w}

についてf(\mathbf{w})=p(\mathcal{D} \mid \mathbf{w}, \beta)p(\mathbf{w} \mid \alpha),\ Z=p(\mathcal{D} \mid \alpha, \beta)として(4.135)式のラプラス近似の式に代入すると

\begin{aligned} p(\mathcal{D} \mid \alpha, \beta) &\simeq p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}, \beta\right) p\left(\mathbf{w}_{\mathrm{MAP}} \mid \alpha\right) \int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{w}_{\mathrm{MAP}}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{w}_{\mathrm{MAP}}\right)\right\} \mathrm{d} \mathbf{w} \\ &=f\left(\mathbf{w}_{\mathrm {MAP}}\right) \frac{(2 \pi)^{W/2}}{|\mathbf{A}|^{1/2}} \end{aligned}

とおくことができる。ここで、W\mathbf{w}の次元数である。

f(\mathbf{w}_{\mathrm{MAP}})について展開すると, (5.162), (5.163)式を用いて

\begin{aligned} f\left(\mathbf{w}_{\mathrm {MAP}}\right)=& p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm {MAP}}, \beta\right) p\left(\mathbf{w}_{\mathrm {MAP}} \mid \alpha\right) \\ =& \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm {MAP}}\right), \beta^{-1}\right) \mathcal{N}\left(\mathbf{w}_{\mathrm {MAP}} \mid \mathbf{0}, \alpha^{-1} \mathrm{I}\right) \\ =& \prod_{n=1}^{N} \left(\frac{\beta}{2 \pi}\right)^{1 / 2} \exp \left[-\frac{\beta}{2}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm {MAP}}\right)\right\}^{2}\right] \\ & \frac{1}{(2 \pi)^{W / 2}} \frac{1}{\left|\alpha^{-1} \mathbf{I}\right|^{1 / 2}} \exp \left\{-\frac{1}{2} \mathbf{w}_{\mathrm {MAP}}^{\mathrm{T}}\left(\alpha^{-1} \mathbf{I}\right)^{-1} \mathbf{w}_{\mathrm {MAP}}\right\} \\ =& \prod_{n=1}^{N}\left(\frac{\beta}{2 \pi}\right)^{1 / 2} \exp \left[-\frac{\beta}{2}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm {MAP}}\right)\right\}^{2}\right] \left(\frac{\alpha}{2 \pi}\right)^{W/2} \exp \left(-\frac{\alpha}{2} \mathbf{w}_{\mathrm {MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm {MAP}}\right) \end{aligned}

これの対数を取ると

\begin{aligned} \ln p(\mathcal{D} \mid \alpha, \beta) & \simeq \ln f\left(\mathbf{w}_{\mathrm{MAP}}\right)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\ &=\sum_{n=1}^{N}\left[\frac{1}{2}\{\ln \beta-\ln (2 \pi)\}-\frac{\beta}{2}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)\right\}^{2}\right] \\ &+\frac{W}{2}\{\ln \alpha-\ln (2 \pi)\}-\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\ &=-\left[\frac{\beta}{2} \sum_{n=1}^{N}\left\{t_{n}-y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)\right\}^{2}+\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}\right] -\frac{1}{2} \ln |\mathbf{A}|+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{W}{2} \ln \alpha \\ &=-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi) \end{aligned}

以上から(5.175)式を得た。

演習 5.40

5.7.3節で議論されたベイズニューラルネットワークの枠組みを,ソフトマックス活性化関数を出力ユニットに持つネットワークを用いて多クラス問題を扱えるようにするために必要な変更について.概略を述べよ.


※5.7.3節の議論をソフトマックス関数・多クラス問題の置き換えるだけ

まずソフトマックス関数(5.25)の式から

y_{k}(\mathbf{x}, \mathbf{w})=\frac{\exp \left(a_{k}(\mathbf{x}, \mathbf{w})\right)}{\sum_{j} \exp \left(a_{j}(\mathbf{x}, \mathbf{w})\right)}

となり、目標変数\mathbf{t}の条件付き分布を多項分布にとって

p(\mathbf{t} \mid \mathbf{x}, \mathbf{w})=\prod_{k=1}^{K} y_{k}(\mathbf{x}, \mathbf{w})^{t_{k}}

これをもとに尤度を計算すると、\mathcal{D}=\left\{\mathbf{t}_{1}, \mathbf{t}_{2}, \ldots\right\}, \mathbf{X}=\left\{\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots\right\}, y_{n k}=y_{k}\left(\mathbf{x}_{n}, \mathbf{w}\right)として、

\begin{aligned} p(\mathcal{D} \mid \mathbf{X}, \mathbf{w}) &=\prod_{n=1}^{N} p\left(\mathbf{t}_{n} \mid \mathbf{x}_{n}, \mathbf{w}\right) \\ &=\prod_{n=1}^{N} \prod_{k=1}^{K} y_{n k}^{t_{n k}} \end{aligned}

となる。これより対数尤度は

\ln p(\mathcal{D} \mid \mathbf{X}, \mathbf{w})=\sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}

となる。

対数尤度関数が求まったので、ラプラス近似理論を適用するために超パラメータ\alphaを初期化する。\mathbf{w}の事後分布は

p(\mathbf{w} \mid \mathcal{D}, \mathbf{X})=\frac{p(\mathcal{D}, \mathbf{w} \mid \mathbf{X})}{p(\mathcal{D} \mid \mathbf{X})}=\frac{p(\mathcal{D} \mid \mathbf{w}, \mathbf{X}) p(\mathbf{w})}{p(\mathcal{D} \mid \mathbf{X})} \simeq p(\mathcal{D} \mid \mathbf{w}, \mathbf{X}) p(\mathbf{w})

なので、対数事後分布は

\ln p(\mathbf{w} \mid \mathcal{D}, \mathbf{X}) = \sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}+\ln p(\mathbf{w})+ \textrm{const.}

となる。重みの事前分布p(\mathbf{w})(5.162)のように

p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)

とすると、

\ln p(\mathbf{w} \mid \mathcal{D}, \mathbf{X})=\sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}+\textrm{const.}

となるので、対数事後分布の最大化は正則化誤差関数

\begin{aligned} E(\mathrm{w}) &=-\ln p(\mathcal{D} \mid \mathrm{w}, \mathrm{X})+\frac{\alpha}{2} \mathrm{w}^{\mathrm{T}} \mathrm{w} \\ &=-\sum_{n=1}^{N} \sum_{k=1}^{K} t_{n k} \ln y_{n k}+\frac{\alpha}{2} \mathrm{w}^{\mathrm{T}} \mathrm{w} \end{aligned}

の最小化と等価になることがわかる。

E(\mathbf{w})を最小にする\mathbf{w}_{\mathrm{MAP}}\frac{\partial E}{\partial \mathbf{w}} = 0から求める。

\mathbf{w}_{\mathrm{MAP}}を求めたらラプラス近似を使って

\begin{aligned} p(\mathcal{D} \mid \alpha, \mathbf{X}) &=\int p(\mathcal{D} \mid \mathbf{w}, \mathbf{X}) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\ &\simeq p(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}, \mathbf{X}) p(\mathbf{w}_{\mathrm{MAP}} \mid \alpha)\frac{(2\pi)^{W/2}}{|\mathbf{A}|^{1/2}} \end{aligned}

となる。これを使って対数をとっていくと

\ln p(\mathcal{D} \mid \alpha, \mathbf{X})=-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha

となる。

あとはP.284と同様に\ln p(\mathcal{D}\mid \alpha)を最大化して\alphaの点推定を行う。結果は(5.178)のように

\alpha=\frac{\gamma}{\mathrm{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathrm{w}_{\mathrm{MAP}}}, \quad \gamma=\sum_{i=1}^{W} \frac{\lambda_{i}}{\alpha+\lambda_{i}}

となる。

演習 5.41

回帰ネットワークに関する5.7.1節および5.7.2節と類似のステップに従って,交差エントロピー誤差関数とロジスティックシグモイド活性化関数の出力ユニットを持つネットワークの場合の周辺化尤度の結果

\ln p(\mathcal{D} \mid \alpha) \simeq-E\left(\mathbf{w}_{\mathrm{MAP}}\right)-\frac{1}{2} \ln |\mathbf{A}|+\frac{W}{2} \ln \alpha \tag{5.183}

を導け.ただし

E\left(\mathbf{w}_{\mathrm{MAP}}\right)=-\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}+\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}} \tag{5.184}

である.


※演習問題5.39と流れはほとんど同じ

ラプラス近似を用いると

\begin{aligned} p(\mathcal{D} \mid \alpha) &=\int p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}\right) p\left(\mathbf{w}_{\mathrm{MAP}} \mid \alpha\right) d \mathbf{w} \\ & \simeq p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}\right) p\left(\mathbf{w}_{\mathrm{MAP}}\mid \alpha\right) \frac{(2 \pi)^{W / 2}}{|\mathbf{A}|^{1 / 2}} \end{aligned}

と書ける。ここで、今p\left(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}}\right)はロジスティック回帰を出力に持つ活性化関数となっているので、対数形は

\ln p(\mathcal{D} \mid \mathbf{w}_{\mathrm{MAP}})=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}

で示される(y_{n} \equiv y\left(\mathbf{x}_{n}, \mathbf{w}_{\mathrm{MAP}}\right)である)。p\left(\mathbf{w}_{\mathrm{MAP}}\mid \alpha\right)は引き続きガウス分布

p(\mathbf{w}_{\mathrm{MAP}} \mid \alpha)=\mathcal{N}\left(\mathbf{w}_{\mathrm{MAP}} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right) \tag{5.162}

を用いる。

以上から\ln p(\mathcal{D}\mid \alpha)を計算すると

\begin{aligned} \ln P\left(\mathcal{D} \mid \alpha\right) & \simeq \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} +\ln \mathcal{N}\left(\mathbf{w}_{\mathrm{MAP}} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\ & = \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} +\ln \left\{ \left(\frac{\alpha}{2 \pi}\right)^{W / 2} \exp \left(-\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}\right) \right\}+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\ & = \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} -\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+\frac{W}{2}\ln \alpha-\frac{W}{2}\ln (2\pi)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\ & = \sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} -\frac{\alpha}{2} \mathbf{w}_{\mathrm{MAP}}^{\mathrm{T}} \mathbf{w}_{\mathrm{MAP}}+\frac{W}{2}\ln \alpha-\frac{W}{2}\ln (2\pi)+\frac{W}{2} \ln (2 \pi)-\frac{1}{2} \ln |\mathbf{A}| \\ &= -E\left(\mathbf{w}_{\mathrm{MAP}}\right) -\frac{1}{2} \ln |\mathbf{A}| +\frac{W}{2}\ln \alpha \end{aligned}

となる。以上から(5.183)が導けた。

Discussion

ChoikoChoiko

お世話になります。
演習5.21の下から4行目、W×Kは、M×Kであるように思います。

ChoikoChoiko

お世話になります。MではなくNになっております。

ChoikoChoiko

お世話になります。
演習5.27の下から3行目の▽y(x)^T ▽y(x)の箇所にはトレースの表示が必要ではないでしょうか?

DR YOSHITAKADR YOSHITAKA

これは必要ない、というよりあってもなくても同義になると思います。

ChoikoChoiko

大変お忙しい中、ご返信誠にありがとうございます。解答欄6行目に▽y(x)は行ベクトルであるとの記載があり、そうなりますと▽y(x)^T ▽y(x)は行列であり、その対角成分が元のベクトルの各要素の二乗であることからトレースの表示が必要では?と思った次第です。トンチンカンなことを言っているかも知れませんので、その場合はお気になさらずスルー下さいませ。

ログインするとコメントできます