はじめに
PRML解答例まとめを参照
演習 7.1
今,入力ベクトルのデータ集合\{\mathbf{x}_n\}とそれに対応する目標値t_n \in \{-1, 1\}が与えられ,かつ,それぞれのクラス分布をカーネル関数k(\mathbf{x}, \mathbf{x}^{\prime})を用いてParzen推定法(2.5.1節参照)でモデル化したとするそれぞれのクラスの事前確率が等しいとしたとき,誤分類率が最も小さくなる分類規則を求めよ.またカーネルがk(\mathbf{x}, \mathbf{x}^{\prime}) = \mathbf{x}^{\mathrm T}\mathbf{x}^{\prime}どという形で表される場合,分類規則は単に重心との距離が近い方のクラスを新しい入力ベクトルに割り当てる, という形になることを示せ.最後にカーネルがk(\mathbf{x}, \mathbf{x}^{\prime}) = \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\boldsymbol{\phi}(\mathbf{x}^{\prime})という形の場合は,分類規則は特徴空間\boldsymbol{\phi}(\mathbf{x})において最も重心が近いクラスを割り当てることに等しいことを示せ.
式(2.249)に従い、p(\mathbf{x}|t)を
p(\mathbf{x} \mid t) \propto\left\{\begin{array}{l}\frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=+1 \\ \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=-1\end{array}\right.
と書ける。各クラスの事前確率が等しいと仮定するので、事後確率p(t|\mathbf{x})は
p(t \mid \mathbf{x}) \propto\left\{\begin{array}{l}\frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=+1 \\ \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=-1\end{array}\right.
となる。新しい\mathbf{x}^{\star}を分類するには、p(t|\mathbf{x}^{\star})を最大化するt^{\star}を探せばいいので、
t^{\star}=\left\{\begin{array}{c}+1 \text { if } \frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right) \geq \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right) \\ -1 \text { if } \frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right) \leq \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right)\end{array}\right.
ここでk(\mathbf{x}, \mathbf{x}') = \mathbf{x}^{T}\mathbf{x}'のとき、
\begin{aligned}
\frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}, \mathbf{x}_n) & = \frac{1}{N_{+1}} \sum_{t = +1} \mathbf{x}^{T}\mathbf{x}_n \\
&= \frac{1}{N_{+1}} \sum_{i = 1}^{N_{+1}} x_1 (x_{n1} + x_{n2} + \cdots + x_{nd}) + \cdots + x_d (x_{n1} + x_{n2} + \cdots + x_{nd}) \\
&= x_1 (\bar{x}_{+1,1} + \bar{x}_{+1,2} + \cdots + \bar{x}_{+1,d}) + \cdots + x_d (\bar{x}_{+1,1} + \bar{x}_{+1,2} + \cdots + \bar{x}_{+1,d}) \\
&= \mathbf{x}^{T}\mathbf{\bar{x}}_{+1}
\end{aligned}
同様に、
\begin{aligned}
\frac{1}{N_{+1}} \sum_{t = -1} k(\mathbf{x}, \mathbf{x}_n) = \mathbf{x}^{T}\mathbf{\bar{x}}_{-1}
\end{aligned}
よって、上記の分類規則は
\begin{aligned}
t^{\star} =
\begin{cases}
+1\ \ \mathrm{if}\ \ \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \geq \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \\
-1\ \ \mathrm{if}\ \ \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \leq \mathbf{x}^{T}\mathbf{\bar{x}}_{-1}
\end{cases}
\end{aligned}
となる。
k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^{T}\phi(\mathbf{x}')としたときも、同様の計算により、
\begin{aligned}
t^{\star} =
\begin{cases}
+1\ \ \mathrm{if}\ \ \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{+1} \geq \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{-1} \\
-1\ \ \mathrm{if}\ \ \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{+1} \leq \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{-1}
\end{cases}
\end{aligned}
ここで\bar{\phi}(\mathbf{x})_{+1} = \frac{1}{N_{+1}} \sum_{n = 1}^{N_{+1}} \phi(\mathbf{x}_n)、\bar{\phi}(\mathbf{x})_{-1} = \frac{1}{N_{+1}} \sum_{n = 1}^{N_{-1}} \phi(\mathbf{x}_n)
演習 7.2
制約式
t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant 1, \quad n=1, \ldots, N \tag{7.5}
において,右辺の1を任意の正数\gammaで置き換えても,マージン最大の超平面は変化しないことを示せ.
t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant \gamma, \quad n=1, \cdots, N \tag{7.5.a}
と置き換えると、
\mathbf{w}^{\prime}=\frac{\mathbf{w}}{\gamma}, \quad b^{\prime}=\frac{b}{\gamma} .として
t_{n}\left(\mathbf{w}^{\prime\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b^{\prime}\right) \geqslant 1, \quad n=1, \ldots, N \tag{7.5.b}
と書け、マージンは
\min _{n} \frac{\left[t_{n}\left(\mathbf{w}^{\prime\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b^{\prime}\right)\right]}{\|\mathbf{w}^{\prime}\|}
=\min _{n} \frac{\left[t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)\right]}{\|\mathbf{w}\|}
と変化しない。
演習 7.3
データ空間の次元数によらず各クラスに一つずつデータが存在すれば, 2つのデータ点だけから成るデータ集合でマージン最大の超平面を決定できることを示せ.
各クラスに一つずつデータ点が与えられたとき,その2点を \mathbf{x}_1\in\mathit{C}_+ (t_1 = +1), \mathbf{x}_2\in\mathit{C}_- (t_2 = -1) とすると以下の制約式のもとで式(7.6)を解くことでマージンを最大化する超平面が得られる
\underset{\mathbf{w}, b}{\arg \min }\,\frac{1}{2}||\mathbf{w}||^2\tag{7.6}
\mathbf{w}^{\mathrm{T}}\mathbf{x}_1+b= +1\tag{1}
\mathbf{w}^{\mathrm{T}}\mathbf{x}_2+b= -1\tag{2}
(7.6)式をラグランジュ乗数\lambdaと\etaを用いて解くと
\underset{\mathbf{w}, b}{\arg \min }\,\left\{\frac{1}{2}||\mathbf{w}||^2+\lambda(\mathbf{w}^{\mathrm{T}}\mathbf{x}_1+b-1)+\eta(\mathbf{w}^{\mathrm{T}}\mathbf{x}_2+b+1)\right\}\tag{3}
(3)式の\mathbf{w}とbについて微分した式を0とおくと
0=\mathbf{w}+\lambda\mathbf{x}_1+\eta\mathbf{x}_2\tag{4}
が得られ,(4),(5)式から
\mathbf{w}=\lambda(\mathbf{x}_2-\mathbf{x}_1)\tag{6}
また(1),(2)式からbは
2b=-\mathbf{w}^{\mathrm{T}}(\mathbf{x}_1+\mathbf{x}_2)
であり,これと(6)式と合わせて
\begin{aligned}
b=&-\frac{\lambda}{2}(\mathbf{x}_1-\mathbf{x}_2)^{\mathrm{T}}(\mathbf{x}_1+\mathbf{x}_2)\\=&-\frac{\lambda}{2}(\mathbf{x}_1^{\mathrm{T}}\mathbf{x}_1-\mathbf{x}_2^{\mathrm{T}}\mathbf{x}_2)
\end{aligned}
のように求まり,マージンを最大化する超平面が定まる.
演習 7.4
マージン最大の超平面のマージン\rhoは,以下の式を満たすことを示せ.
\frac{1}{\rho^2}= \sum_{n=1}^N a_n \tag{7.123}
ただし\{a_n\}は
\widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \tag{7.10}
を制約条件
a_{n} \geqslant 0, \hspace{2em} n=1, \ldots, N \tag{7.11}
\sum_{n=1}^{N} a_{n} t_{n}=0 \tag{7.12}
の下で解いて得られる解とする.
今、定義と、(7, 2)より、
\begin{aligned}
\rho = \frac{t_n y(x_n)}{||\mathbf{w}||} = \frac{t_n (\mathbf{w}^T \phi(\mathbf{x}_n)+b)}{||\mathbf{w}||}
\end{aligned}
である。今、分子と分母を定数倍すると、ある\mathbf{w}^{\star}において、
\begin{aligned}
\rho = \frac{1}{||\mathbf{w}^{\star}||}
\end{aligned}
が成り立つ。よって、\frac{1}{\rho^2} = ||\mathbf{w}^{\star}||^2であり、||\mathbf{w}^{\star}||^2 = \sum_{n=1}^N a_nを証明すれば題意は満たされる。今、(7, 10)より
\begin{aligned}
\widetilde{L}(\mathbf{a}) &= \sum_n a_n - \frac{1}{2}\sum_n \sum_m a_n a_m t_n t_m k(\mathbf{x}_n, \mathbf{x}_m) \\
&= \sum_n a_n - \frac{1}{2}\sum_n a_n t_n \phi(\mathbf{x}_n) \sum_m a_m t_m \phi(\mathbf{x}_m) \\
&= \sum_n a_n - \frac{1}{2}||\mathbf{w^{\star}}||^2 &(\because (7, 8))
\end{aligned}
また、ラグランジュ乗数法の定義より。
\begin{aligned}
\widetilde{L}(a) = L(\mathbf{w^{\star}}, b, \mathbf{a} ) = \frac{1}{2}||\mathbf{w}^{\star}||^2 &(\because (7.7))
\end{aligned}
よって、\sum_n a_n - \frac{1}{2}||\mathbf{w^{\star}}||^2 = \frac{1}{2}||\mathbf{w}^{\star}||^2であり、整理すると、題意が導かれる。
演習 7.5
前問における\rhoおよび\{a_n\}は,次の式を満たすことを示せ.
\frac{1}{\rho^{2}}=2 \widetilde{L}(\mathbf{a}) \tag{7.124}
ここで,\widetilde{L}(\mathbf{a})は
\widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \tag{7.10}
で定義される関数である同様に以下の関係が成り立つことを示せ.
\frac{1}{\rho^{2}}= \|\mathbf{w}\|^2 \tag{7.125}
本問については、7.4ですでに示されている.
\begin{aligned}
(
\because
\widetilde{L}(a) = \frac{1}{2}||\mathbf{w}'||^2 ,
\rho = \frac{1}{||\mathbf{w}'||}
)
\end{aligned}
演習 7.6
出力値がt\in\{-1, 1\}であるロジスティック回帰モデルについて考える.
y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b \tag{7.1}
という形のy(\mathbf{x})を用いて,p(t=1|y) = \sigma(y)とすると,対数尤度(の符号を反転したもの)に2乗ノルムの正則化項を加えたものは
\sum_{n=1}^{N} E_{\mathrm{LR}}\left(y_{n} t_{n}\right)+\lambda\|\mathbf{w}\|^{2} \tag{7.47}
という形を取ることを示せ.ただし
E_{\mathrm{LR}}(y t)=\ln (1+\exp (-y t)) \tag{7.48}
である.
ロジスティック回帰モデルはinputデータに対して各クラスの事後確率を求め
最も高い確率のクラスに分類する手法。
各クラスの事後確率はロジスティックシグモイド関数として以下のように書ける。
入力データがクラス1である確率:p(t=1 \mid y)=\sigma(y)
入力データがクラス2である確率:p(t=-1 \mid y)=1-\sigma(y)=\sigma(-y)
※\sigma(y)=\frac{1}{1+e^{-y}} y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b
学習データとして、各学習データがi.i.dの\mathcal{D}=\left\{\left(t_{1}, \mathbf{x}_{n}\right), \ldots,\left(t_{N}, \mathbf{x}_{N}\right)\right\}が与えられると
最適パラメータ(\mathbf{w},b)は以下の尤度を最大化することで得られる。
p(\mathcal{D})=\prod_{t_{n}=1} \sigma\left(y_{n}\right) \prod_{t_{n^{\prime}}=-1} \sigma\left(-y_{n^{\prime}}\right)=\prod_{n=1}^{N} \sigma\left(t_{n} y_{n}\right) ※y_{n}=y\left(\mathbf{x}_{n}\right) , t_{n} \in\{-1,1\}
これは、各学習データが正分類される確率を全データに対して掛け合わせたものを表しており
正しく正分類されているほど、尤度は大きくなる。負の対数尤度を取ると以下となる。
\begin{aligned}-\ln p(\mathcal{D}) &=-\ln \prod_{n=1}^{N} \sigma\left(t_{n} y_{n}\right) \\ &=\sum_{n=1}^{N} \ln \sigma\left(t_{n} y_{n}\right)^{\mathrm{-1}} \\ &=\sum_{n=1}^{N} \ln \left(1+\exp \left(-t_{n} y_{n}\right)\right) \end{aligned}
これに、\lambda\|\mathbf{w}\|^{2}を加えると(7.47)という形を取る。
演習 7.7
SVM回帰モデルのラグランジュ関数
\begin{aligned}
L=&\ C \sum_{n=1}^{N}\left(\xi_{n}+\widehat{\xi}_{n}\right)+\frac{1}{2}\|\mathbf{w}\|^{2}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\
&-\sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+y_{n}-t_{n}\right)-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-y_{n}+t_{n}\right) .
\end{aligned} \tag{7.56}
について考える.(7.56)の \mathbf{w}, b, \xi_{n}, \widehat{\xi}_{n}に対する偏微分をそれぞれ零とおき,その結果を代入することで双対ラグランジュ関数
\begin{aligned}
\widetilde{L}(\mathbf{a}, \widehat{\mathbf{a}})=&-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \\ &-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n}
\end{aligned} \tag{7.61}
が得られることを示せ.
(7.56)にy(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+bを代入して、スラック変数を分解すると以下の式が得られる。
\begin{aligned} L=& \sum_{n=1}^{N} C \xi_{n}+\sum_{n=1}^{N} C\widehat{\xi}_{n}+\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b-t_{n}\right) \\ &-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)-b+t_{n}\right) \qquad (*)\end{aligned}
ラグランジュ関数(7.56)の\mathbf{w}, b, \xi_{n}, \widehat{\xi}_{n}に対する偏微分をそれぞれ零とおくことで
以下の式が得られる。
\begin{aligned}
&\frac{\partial L}{\partial \mathrm{w}}=0 \Rightarrow \mathrm{w}=\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) \phi\left(\mathrm{x}_{n}\right)\qquad (7.57)\\
&\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)=0\qquad (7.58)\\
&\frac{\partial L}{\partial \xi_{n}}=0 \Rightarrow a_{n}+\mu_{n}=C\qquad (7.59)\\
&\frac{\partial L}{\partial \widehat{\xi}_{n}}=0 \Rightarrow \widehat{a}_{n}+\widehat{\mu}_{n}=C\qquad (7.60)\
\end{aligned}
(*)
\begin{aligned}
L=& \sum_{n=1}^{N}\left(a_{n}+\mu_{n}\right) \xi_{n}+\sum_{n=1}^{N}\left(\widehat{a}_{n}+\widehat{\mu}_{n}\right) \widehat{\xi}_{n} \\
&+\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\
&-\sum_{n=1}^{N}\left(a_{n} \xi_{n}+\widehat{a}_{n} \widehat{\xi}_{n}\right)-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n} \\
&-\sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)-b \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) .
\end{aligned}
この式の第1,2項は、第4,5項とちょうど打ち消しあう。また、式(7.58)により最後の項は0になるので
まとめると(7.61)が得られる。
演習 7.8
7.1.4節で議論した SVM回帰モデルについて,\xi_{n} \gt 0が成り立つ訓練データ点についてはa_n = C,同様に\widehat{\xi}_{n} \gt 0が成り立つ訓練データ点については\widehat{a}_{n} = Cが成立することを示せ.
※(7.67),(7.68)から明らか。
演習 7.9
RVM回帰モデルについて,重みに対する事後確率分布の平均および共分散が
\mathbf{m}=\beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \tag{7.82}
\mathbf{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}
で与えられることを示せ.
(7.79)式の直後の段落に記載された仮定(各w_iの事前確率分布の平均が0、分散が\alpha_i)により、(3.49)〜(3.51)式と(7.81)〜(7.83)式との対応関係は、
\begin{aligned} \mathbf{m}_{0} &=\mathbf{0} \\ \mathbf{S}_{0} &=\operatorname{diag}\left(\alpha_{\mathrm{i}}^{-1}\right) \\ \mathbf{m}_{N} &=\mathbf{m}: \text { definition } \\ \mathbf{S}_{N} &=\mathbf{\Sigma} \quad \text { definition } \end{aligned}
である。従って、
\begin{aligned}
\mathbf{m} &=\mathbf{S}_{N}\left(\mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}\right) \\ &=\beta \mathbf{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \\ \mathbf{\Sigma}^{-1} &=\left(\operatorname{diag}\left(\alpha_{\mathrm{i}}^{-1}\right)\right)^{-1}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \\ &=\operatorname{diag}\left(\alpha_{\mathrm{i}}\right)+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \\ \mathbf{\Sigma} &=\left(\mathbf{A}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1}
\end{aligned}
となる。ただし、\mathbf{A}=\operatorname{diag}(\alpha_i)と定義した。
演習 7.10
RVM回帰モデルについて周辺化尤度関数の式
\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}
を,
p(\boldsymbol{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \boldsymbol{\alpha}) \mathrm{d} \mathbf{w} \tag{7.84}
の\mathbf{w}に対する積分を実行することで導け.(指数に現れる2次式を平方完成するとよい.)
\begin{aligned}
p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{\mathbf{w}}, \beta) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\
&=\int \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm T} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) d \mathbf{w} \\
&=\int\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \prod_{n=1}^{N} \exp \left\{-\frac{\left(t_{n}-\mathbf{w}^{\mathrm T} \boldsymbol{\phi}(\mathbf{x})\right)^{2}}{2 \beta^{-1}}\right\}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \exp \left\{-\frac{w_{i}^{2}}{2 \alpha_{i}^{-1}}\right\} d \mathbf{w} \\
&=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \int \exp \left\{-\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w}\right\} d \mathbf{w}
\end{aligned}
ここで\mathbf{A} = \operatorname{diag}(\alpha_i)である。指数部分を整理すると
\begin{aligned}
-\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w} &=-\frac{1}{2}\left\{\beta\left(\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} \mathbf{w}\right)+\mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w}\right\} \\
&=-\frac{1}{2}\left\{\mathbf{w}^{\mathrm T}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right) \mathbf{w}-2 \beta \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm T} \mathbf{t}\right\} \\
&=-\frac{1}{2}\left\{(\mathbf{w}-\mathbf{m})^{\mathrm T} \mathbf{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right\}
\end{aligned}
ここで(3.49)の平方完成にならって\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)^{-1}, \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T}\mathbf{t}とした。これより\mathbf{w}についての積分が行えるので
\begin{aligned}
p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \int \exp \left\{-\frac{1}{2}\left\{(\mathbf{w}-\mathbf{m})^{\mathrm T} \mathbf{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right\}\right\} d \mathbf{w} \\
&=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}}\left(2\pi\right)^{\frac{M}{2}}|\mathbf{\Sigma}|^{\frac{1}{2}} \exp \left\{-\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right)\right\}
\end{aligned}
となる。そしてさらに\mathbf{t}について再度指数部分を整理すると
\begin{aligned}
-\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) &= - \frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Sigma}^{-1} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \beta\right) \\
&= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\
&= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \mathbf{\Phi}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\
&= -\frac{1}{2} \mathbf{t}^{\mathrm T}\left(\left(\beta^{-1} \mathbf{I}\right)^{-1}-\left(\beta^{-1} \mathbf{I}\right)^{-1} \mathbf{\Phi}\left(\mathbf{A}+\mathbf{\Phi}^{\mathrm T}\left(\beta^{-1} \mathbf{I}\right)^{-1} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm T}\left(\beta^{-1} \mathbf{I}\right)^{-1}\right) \mathbf{t} \\
&= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{-1} \mathbf{t} \hspace{1em} (\because \textrm{Woodburyの公式}, \textrm{(C.7)})\\
&= -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}
\end{aligned}
となる。ただし、最後で\mathbf{C} = \beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}とした。以上から対数を取ることで
\begin{aligned}
\ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &= \frac{N}{2}(\ln\beta -\ln (2\pi)) + \frac{1}{2}\ln |\mathbf{\Sigma}| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\
&= -\frac{N}{2}\ln(2\pi) + \frac{N}{2}\ln \beta +\frac{1}{2}\ln\left| \mathbf{\Sigma} \right| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\
&= -\frac{N}{2}\ln(2\pi) - \frac{1}{2}\ln |\mathbf{C}| -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}
\end{aligned}
となり、展開することで(7.85)式を得られる。
※ 最後の式変形部分について、\displaystyle \frac{N}{2}\ln \beta + \frac{1}{2}\ln |\mathbf{\Sigma}| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i = -\frac{1}{2}\ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|を示す。
これは\displaystyle \ln \left(\beta^{N} \cdot |\mathbf{\Sigma}| \cdot \prod_{i=1}^{M} \alpha_{i} \right) = \ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|^{-1}を示せれば良い。
\begin{aligned}
\ln \left(\beta^{N} \cdot |\mathbf{\Sigma}| \cdot \prod_{i=1}^{M} \alpha_{i}\right) &=\ln (|\beta \mathbf{I}| |\mathbf{A}| |\mathbf{\Sigma}|) \quad (\because |\beta\mathbf{I}| = \beta^N, |\mathbf{A}||\mathbf{B}| = |\mathbf{B}||\mathbf{A}|)\\
&=\ln \left(\left|(\beta \mathbf{I})^{-1}\right|^{-1}\left|\mathbf{A}^{-1}\right|^{-1}\left|\mathbf{A}+\mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right|^{-1}\right) \quad (\because(\mathrm{C}. 3)) \\
&=\ln \left|(\beta \mathbf{I})^{-1} \mathbf{A}^{-1}\left(\mathbf{A}+\mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right)\right|^{-1} \quad (\because(\mathrm{C}. 12)) \\
&=\ln\left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right)\right|^{-1} \\
&=\ln \left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\left(\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{\mathrm{T}}((\beta \mathbf{I}) \mathbf{\Phi})^{\mathrm{T}}\right)\right|^{-1}\quad (\because(\mathrm{C} .14)) \\
&=\ln \left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I})\right)\right|^{-1} \quad \left(\because\left(\mathbf{A}^{-1}\right)^{\mathrm{T}}=\mathbf{A}^{-1}\right) \\
&=\ln \left|\left(\mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I})\right)(\beta \mathbf{I})^{-1}\right|^{-1} \quad \left(\because |\mathbf{AB}| = |\mathbf{BA}|\right) \\
&=\ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|^{-1}
\end{aligned}
演習 7.11
前問を,
p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}
の結果を用いて解け.
※(2.115)式に代入するだけで求まる。
演習7.10の途中式から
\begin{aligned}
p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\
&=\int \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) d \mathbf{w} \\
&=\int \mathcal{N} \left( \mathbf{t} \mid \mathbf{\Phi w}, \beta^{-1}\mathbf{I} \right) \mathcal{N} \left( \mathbf{w} \mid \mathbf{0}, \mathbf{A}^{-1} \right) d\mathbf{w}
\end{aligned}
(2.115)式を使って周辺化すると
\begin{aligned}
p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &= \mathcal{N}\left(\mathbf{t} \mid \mathbf{\Phi 0}, \left(\beta^{-1} \mathbf{I}\right)+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm T}\right) \\
&=\mathcal{N}\left(\mathbf{t} \mid \mathbf{0}, \mathbf{C}\right)
\end{aligned}
となるので、(7.85)式が求められた。
演習 7.12
RVM回帰モデルについて周辺化対数尤度
\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}
を直接最大化すると,更新式
\alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{m_{i}^{2}} \tag{7.87}
および
\left(\beta^{\text {new}}\right)^{-1}=\frac{\|\mathbf{t}-\Phi \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \tag{7.88}
が得られることを示せ.ただし\gamma_iは
\mathbf{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}
で定義される共分散行列\mathbf{\Sigma}のi番目の対角成分を用いて
\gamma_i = 1-\alpha_i \Sigma_{ii} \tag{7.89}
で与えられるものとする.
※\mathbf{\Phi},\mathbf{\Phi}^{\mathrm T},\mathbf{\Sigma}はそれぞれM\times N,N\times M, N\times N行列、\mathbf{t}, \mathbf{m}はそれぞれM, N次元ベクトルである。
演習 7.10または7.11の結果から
\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta)=\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{1}{2} \sum_{i=1}^{M} \ln \alpha_{i}-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}
となる。次にテキスト58ページのように、この対数尤度の微分を0とする。
まず\alpha_iについて偏微分するが、準備として\mathbf{I}_{ii}をii成分のみ1で残りを0とする行列とする。これを用いて上式第3項の\alpha_iについての偏微分は
\begin{aligned}
\frac{\partial}{\partial \alpha_{i}} \ln |\mathbf{\Sigma}| &=-\frac{\partial}{\partial \alpha_{i}} \ln \left|\mathbf{\Sigma}^{-1}\right| \\
&=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \alpha_{i}}\right] \quad(\because \textrm{(C.22)}) \\
&=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial}{\partial \alpha_{i}}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)\right] \\
&=-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{I}_{i i}\right] \\
&=-\Sigma_{i i}
\end{aligned}
第5項の\alpha_iについての偏微分は、\mathbf{\Sigma}が対称行列であることと\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)^{-1}, \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T}\mathbf{t}を利用して
\begin{aligned}
\frac{\partial}{\partial \alpha_{i}}\left(\mathbf{t}^{\mathrm{T}} \mathbf{C} \mathbf{t}\right) &=\frac{\partial}{\partial \alpha_{i}}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) \quad (\because 演習7.10)\\
&=-\frac{\partial}{\partial \alpha_{i}}\left(\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) \\
&=-\frac{\partial}{\partial \alpha_{i}}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Sigma}^{-1} \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \quad (\because \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t})\\
&=-\frac{\partial}{\partial \alpha_{i}}\left(\beta^{2} \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \\
&=-\operatorname{Tr}\left[ \left( \frac{\partial}{\partial \mathbf{\Sigma}^{-1}} \beta^{2} \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \right)^{\mathrm T} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \alpha_i}\right] \quad (\because \textrm{Matrix Cookbook (137)}) \\
&=-\operatorname{Tr}\left[\beta^{2}\left(-\mathbf{\Sigma}\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \mathbf{\Sigma}\right)^{\mathrm T} \mathbf{I}_{i i}\right] \quad (\because \textrm{Matrix Cookbook (61)}) \\
&=\operatorname{Tr}\left[\left(\mathbf{mm}^{\mathrm T}\right)^{\mathrm T} \mathbf{I}_{i i}\right] \\
&=m_{i}^2
\end{aligned}
となる。m_iは(7.82)で定義される事後平均\mathbf{m}のi番目の要素である。また途中の式変形でMatrix Cookbookに掲載されている行列の微分の公式を用いた。
\frac{\partial}{\partial \alpha_{i}}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta) = -\frac{1}{2}\Sigma_{ii} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2}
これを0として移項すると
\begin{aligned}
& \alpha_{i} m_{i}^{2} = 1-\alpha_{i} \Sigma_{i i} \\
& \therefore \alpha_{i} = \frac{1-\alpha_{i} \Sigma_{i i}}{m_{i}^{2}}=\frac{\gamma_{i}}{m_{i}^{2}}
\end{aligned}
これが求める\alpha_i^{\textrm{new}}となる。
同様にして\betaについて偏微分する。\ln pの第3項について
\begin{aligned}
\frac{\partial}{\partial \beta}\ln | \mathbf{\Sigma} | &= -\frac{\partial}{\partial \beta} \ln \left|\mathbf{\Sigma}^{-1}\right| \\
&=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \beta}\right] \\
&=-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right] \end{aligned}
第5項について
\begin{aligned}
\frac{\partial}{\partial \beta}\left(\mathbf{t}^{\mathrm T} \mathbf{C} \mathbf{t}\right) &=\frac{\partial}{\partial \beta}\left(\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{C} \mathbf{m}\right) \\
&=\mathbf{t}^{\mathrm T} \mathbf{t}-\frac{\partial}{\partial \beta}\left(\beta^{2} \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right) \\
&=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \beta\left(\mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)-\beta^{2} \frac{\partial}{\partial \beta}\left(\mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right) \\
&=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}-\beta^{2} \operatorname{Tr}\left[\frac{\partial}{\partial \mathbf{\Sigma}^{-1}}\left(\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \beta}\right] \\
&=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\beta^{2} \operatorname{Tr}\left[\mathbf{\Sigma}\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)(\mathbf{\Phi}^{\mathrm T} \mathbf{t})^{\mathrm T} \mathbf{\Sigma} \cdot\left(\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)\right] \\
&=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\operatorname{Tr}\left[\mathbf{m} \mathbf{m}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right] \\
&=\mathbf{t}^{2} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\operatorname{Tr}\left[\mathbf{m}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} \mathbf{m}\right] \\
&=\mathbf{t}^{2} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+(\mathbf{\Phi} \mathbf{m})^{\mathrm T} \mathbf{\Phi} \mathbf{m} \\
&=\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}
\end{aligned}
これより、
\frac{\partial}{\partial \beta}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta)=\frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right)
となる。このうち\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]について
\begin{aligned}
\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} &=\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\beta^{-1} \mathbf{\Sigma} \mathbf{A}-\beta^{-1} \mathbf{\Sigma} \mathbf{A} \\
&=\mathbf{\Sigma}\left(\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{A}\right) \beta^{-1}-\beta^{-1} \mathbf{\Sigma} \mathbf{A} \\
&=\mathbf{I} \beta^{-1}-\beta^{-1} \Sigma \mathbf{A} \\
&=\beta^{-1}(\mathbf{I}-\mathbf{\Sigma} \mathbf{A})
\end{aligned}
となるので、
\begin{aligned}
\ & \frac{\partial}{\partial \beta}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta) = 0 \\
\Leftrightarrow &\ \frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) = 0 \\
\Leftrightarrow &\ \beta^{-1} = \frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\operatorname{Tr}(\mathbf{I}-\mathbf{\Sigma A})}=\frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}}
\end{aligned}
これが\left(\beta^{\text {new}}\right)^{-1}となる。
※ \alpha_{i}^{\text {new }}も\left(\beta^{\text {new}}\right)^{-1}も1つ前の\alpha_i, \beta^{-1}の値に依存しているので、これら超パラメータの学習はP.58に書かれているように、適当な初期値を決めてから更新していき、適当な収束条件が満たされるまで繰り返される。
演習 7.13
本文では,RVM回帰モデルについて,
\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}
の周辺化尤度の最大化から,更新式
\alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{m_{i}^{2}} \tag{7.87}
および
\left(\beta^{\text {new}}\right)^{-1}=\frac{\|\mathbf{t}-\Phi \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \tag{7.88}
を導いた.超パラメータの事前分布を
\operatorname{Gam}(\tau \mid a, b)=\frac{1}{\Gamma(a)} b^{a} \tau^{a-1} e^{-b \tau} \tag{B.26}
の形のガンマ分布に変更したときの\boldsymbol{\alpha}と\betaに対する更新式を,同様に事後確率p(\mathbf{t}, \boldsymbol{\alpha}, \beta \mid \mathbf{X})を\boldsymbol{\alpha}と\betaに対して最大化することで導出せよ.
題意により、\mathbf{\alpha}_iと\betaの事前分布を以下のように定める。ここで、全ての\alpha_iについてパラメータa,bは共通とした。(本文では\alphaが確率変数ではないので、iに応じて異なるパラメータにしないと関連度自動決定の議論に繋がらないが、\alphaを確率変数とみなすことで、各iについて同一のパラメータを採用することができる。)
\begin{aligned}
p(\alpha_i) = \operatorname{Gam}(\alpha_i \mid a, b) = \frac{1} {\Gamma(a)} b^{a} \alpha_i{}^{a-1} e^{-b \alpha_i} \\
p(\beta) = \operatorname{Gam}(\beta \mid \tilde{a}, \tilde{b}) = \frac{1}{\Gamma(\tilde{a})} \tilde{b}^{\tilde{a}} \beta^{\tilde{a}-1} e^{-\tilde{b} \beta}
\end{aligned}
尤度関数p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) = p(\mathbf{t} \mid \mathbf{X}, \mathbf{\alpha}, \beta) \prod_i p(\alpha_i) p(\beta)を最大化する\mathbf{\alpha}と\betaを求める。
対数尤度関数は、以下の通り。
\begin{aligned}
\ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} )
=&
\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{1}{2} \sum_{j=1}^{M} \ln \alpha_{j}-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\
&+
\sum_{j=1}^M \left\{ a \ln b + (a-1)\ln \alpha_j - b \alpha_j - \ln \Gamma (a) \right\} \\
&+
\left\{ \tilde{a} \ln \tilde{b} + (\tilde{a}-1)\ln \beta - \tilde{b} \beta - \ln \Gamma (\tilde{a}) \right\}
\end{aligned}
対数尤度関数を\alpha_iと\betaで偏微分する。1行目の偏微分は演習(7.12)に登場する式変形を参照。
\begin{aligned}
\frac{\partial}{\partial \alpha_i} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} )
=& \left( -\frac{1}{2}\Sigma_{ii} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} \right) + \left( \frac{a-1}{\alpha_i} - b \right) \\
=& -\frac{1}{2} \frac{1 - \gamma_i}{\alpha_i} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} + \frac{a-1}{\alpha_i} - b \\
=& \frac{1}{2 \alpha_i} \left\{ -(1 - \gamma_i) + 1 + 2(a-1) \right\} - \frac{1}{2} (m_i^2 + 2b)\\
=& \frac{1}{2 \alpha_i} \left( \gamma_i + 2a -2 \right) - \frac{1}{2} (m_i^2 + 2b)
\end{aligned}
右辺=0を解いて、
\begin{aligned}
\alpha_i =\frac{\gamma_i + 2a -2}{m_i^2 + 2b}
\end{aligned}
となる。でも、公式解答は
\begin{aligned}
\alpha_i =\frac{\gamma_i + 2a -2}{m_i^2 - 2b}
\end{aligned}
となっている・・・。次に、
\begin{aligned}
\frac{\partial}{\partial \beta} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} )
=& \frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) +(\tilde{a} -1)\frac{1}{\beta}-\tilde{b} \\
=& \frac{1}{2}\left(\frac{N}{\beta}-\frac{\sum_i \gamma_i}{\beta}-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) +(\tilde{a} -1)\frac{1}{\beta}-\tilde{b} \\
=& \frac{1}{2}\left\{ \frac{ N-\sum_i \gamma_i +2(\tilde{a}-1) }{\beta} - \left( \|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b} \right) \right\}
\end{aligned}
右辺=0を解いて、
\begin{aligned}
\beta^{-1} =\frac
{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b}}
{2\tilde{a}-2+N-\sum_i \gamma_i}
\end{aligned}
となる。でも、公式解答は
\begin{aligned}
\beta^{-1} =\frac
{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b}}
{\tilde{a}+2+N-\sum_i \gamma_i}
\end{aligned}
となっている・・・。
演習 7.14
RVM回帰モデルの予測確率分布が
\begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}, \alpha^{\star}, \beta^{\star}\right) &=\int p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}^{\mathrm{T}} \phi(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned} \tag{7.90}
で与えられることを示せ.また,その予測分布の分散が
\sigma^{2}(\mathbf{x})=\left(\beta^{\star}\right)^{-1}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{\Sigma} \boldsymbol{\phi}(\mathbf{x}) \tag{7.91}
で与えられることも示せ.ここで,\mathbf{\Sigma}は
\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}
において\alpha = \alpha^{\star}および\beta = \beta^{\star}としたものである.
(7.76)式,(7.81)式から
\begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) &=\mathcal{N}\left(t \mid \mathbf{w}^{\mathrm{T}} \phi(\mathbf{x}), (\beta^{\star})^{-1}\right )
\\ &
\end{aligned}
\begin{aligned} p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right)&=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}, \mathbf{\Sigma} \right )
\\ &
\end{aligned}
(2.115)式において、A\mathbf{x}を\mathbf{w}^{\mathrm{T}} \phi(\mathbf{x})に、L^{-1}を(\beta^{\star})^{-1}に、\muを\mathbf{m}に、\Lambda^{-1}を\Sigmaに置き換えると、
\begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}, \alpha^{\star}, \beta^{\star}\right) &=\int p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}^{\mathrm{T}} \phi(\mathbf{x}), \left(\beta^{\star}\right)^{-1}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{\Sigma} \boldsymbol{\phi}(\mathbf{x})\right)
\end{aligned}
となる。
演習 7.15
|\mathbf{C}| =\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}\right) \tag{7.94}
および
\mathbf{C}^{-1} =\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}} \tag{7.95}
を用いて,周辺化尤度
\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}
が
L(\boldsymbol{\alpha})=L\left(\boldsymbol{\alpha}_{-i}\right)+\lambda\left(\alpha_{i}\right) \tag{7.96}
の形に変形できることを示せ.ただし\lambda(\alpha_n)および品質/疎性パラメータはそれぞれ
\lambda\left(\alpha_{i}\right)=\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i}\right)+\frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right] \tag{7.97}
s_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i} \tag{7.98}
q_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \mathbf{t} \tag{7.99}
で定義されているとする.
(7.94)式は
\begin{aligned}
|\mathbf{C}| &= \left| \mathbf{C}_{-i}\left(\mathbf{I}+\alpha_{i}^{-1} \mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right)\right| \\
&= \left| \mathbf{C}_{-i} \right| \left| \mathbf{I}+\alpha_{i}^{-1} \mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right| \\
&=\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1}\left(\mathbf{C}_{-i}^{-1} \varphi_{i}\right)^{\mathrm T} \varphi_{i}\right) \quad (\because (\textrm{C}. 15)) \\
&=\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}\right) \quad \left(\because \mathbf{C}_{-i}^{-1} = \left( \mathbf{C}_{-i}^{-1} \right)^{\mathrm T} \right)
\end{aligned}
(7.95)式はWoodburyの公式を用いて求められる。
\begin{aligned}
\left(\mathbf{C}_{-i}+\alpha_{i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right)^{-1}
&=\mathbf{C}_{-i}^{-1}-\mathbf{C}_{-i}^{-1} \varphi_{i}\left(\alpha_{i} \mathbf{I}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}\right)^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \\
&=\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}}
\end{aligned}
これらを用いて対数周辺尤度\displaystyle \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) =-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\}を計算すると
\begin{aligned}
L(\boldsymbol{\alpha})=&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm T} \mathbf{C}^{-1} \mathbf{t}\right\} \\
=&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln \left(\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-1}^{-1} \varphi_{i}\right)\right)+\mathbf{t}^{\mathrm T}\left(\mathbf{C}_{-i}^{-1} - \frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}}\right) \mathbf{t}\right\} \\
=&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln \left(\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} s_{i}\right)\right)+\mathbf{t}^{\mathrm T} \mathbf{C}_{-i}^{-1} \mathbf{t} - \frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right\} \\
&(\because q_{i}^{2}=q_{i}^{\mathbf{T}}q_{i}=(\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})^{\mathbf{T}}(\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})=\mathbf{t}^{\mathbf{T}}(\mathbf{C}_{-i}^{-1})^{\mathbf{T}}\varphi_{i}\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})
\\
=&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}_{-i}|+\mathbf{t}^{\mathrm T} \mathbf{C}_{-i}^{-1} \mathbf{t} \right\} -\frac{1}{2} \ln \left(\frac{\alpha_{i}+s_{i}}{\alpha_{i}}\right) + \frac{1}{2} \frac{q_{i}^{2}}{\alpha_{i}+s_{i}} \\
=&\ L(\boldsymbol{\alpha}_{-i})+\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i}\right)+\frac{q_{i}{ }^{2}}{\alpha_{i}+s_{i}}\right] \\
=&\ L(\boldsymbol{\alpha}_{-i})+\lambda(\alpha_i)
\end{aligned}
以上より、(7.96)式が導出された。
演習 7.16
超パラメータ\alpha_iに対して, RVM回帰モデルの周辺化対数尤度
\begin{aligned}
\lambda(\alpha_{i}) = \frac{1}{2}\left[ \ln \alpha_i - \ln(\alpha_i + s_i) +\frac{q_i^2}{\alpha_1 + s_i} \right]
\end{aligned}
の2階微分を取ることで,
\alpha_{i}=\frac{s_{i}^{2}}{q_{i}^{2}-s_{i}} \tag{7.101}
で与えられる停留点が周辺化尤度の極大値であることを示せ.
\lambda(\alpha_i)を一階微分すると、
\begin{aligned}
\frac{\partial \lambda(\alpha_i)}{\partial \alpha_i} = \frac{\alpha_i^{-1}s_i^2 - (q_i^2 -s_i)}{2(\alpha_i + s_i )^2}
\end{aligned}
である。よって、その分子が0をとるとき、\alpha_iは極値をとる。よって、
\begin{aligned}
&\alpha_i^{-1}s_i^2 - (q_i^2 -s_i) = 0 \\
&\Rightarrow \alpha_i =\frac{s_i^2}{q_i^2 - s_i}
\end{aligned}
次に、2階微分は以下になる。
\begin{aligned}
\frac{\partial^2 \lambda(\alpha_i)}{\partial^2 \alpha_i} = \frac{1}{2}\left[-\frac{1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2 }+\frac{2q_i^2}{(\alpha_i+s_i)^3} \right]
\end{aligned}
次に、2階微分に\alpha_i =\frac{s_i^2}{q_i^2 - s_i}を代入した際に、0未満であれば、その\alpha_iは極大値であることが明らかになる。
\begin{aligned}
\frac{1}{2}\left[-\frac{1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2 }+\frac{2q_i^2}{(\alpha_i+s_i)^3} \right] &=
\frac{1}{2}\left[-\frac{1}{(\frac{s_i^2}{q_i^2 - s_i})^2}+\frac{1}{(\frac{s_i^2}{q_i^2 - s_i}+s_i)^2 }+\frac{2q_i^2}{(\frac{s_i^2}{q_i^2 - s_i}+s_i)^3} \right] \\
&= \frac{1}{2}\left[-\frac{(q_i^2 - s_i)^2}{s_i^4}+\frac{(q_i^2 - s_i)^2}{s_i^2 q_i^4}+\frac{2(q_i^2 - s_i)^3}{s_i^3 q_i^4}\right] \\
&= -\frac{1}{2}\frac{(q_i^2 - s_i)^4}{q_i^4 s_i^2} < 0 \ \ (\because q_i^2 - s_i > 0)
\end{aligned}
よって、\displaystyle \alpha_i =\frac{s_i^2}{q_i^2 - s_i}において極大値を取る。
演習 7.17
\boldsymbol{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}
\mathbf{C}=\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \tag{7.87}
\left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7}
を用いて,
Q_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \tag{7.102}
S_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \boldsymbol{\varphi}_{i} \tag{7.103}
で定義されるQ_n, S_nが,
Q_{i}=\beta \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{t}-\beta^{2} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \tag{7.106}
S_{i}=\beta \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\varphi}_{i}-\beta^{2} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\varphi}_{i} \tag{7.107}
に変形できることを示せ.
(7.102)式に(7.87)式を代入して
\begin{aligned}
Q_{i}&=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\\
&=\boldsymbol{\varphi}_{i}^{T}(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}})^{-1}\mathbf{t}\\
&=\boldsymbol{\varphi}_{i}^{T}\left\{\beta\mathbf{I}-\beta^{2}\mathbf{\Phi}(\mathbf{A}+\beta\mathbf{\Phi}^{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^{T}\right\}\mathbf{t}\\
&=\beta\boldsymbol{\varphi}_{i}^{T}\mathbf{t}-\beta^{2}\boldsymbol{\varphi}_{i}^{T}\mathbf{\Phi}(\mathbf{A}+\beta\mathbf{\Phi}^{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^{T}\mathbf{t}\\
&=\beta\boldsymbol{\varphi}_{i}^{T}\mathbf{t}-\beta^{2}\boldsymbol{\varphi}_{i}^{T}\mathbf{\Phi}\boldsymbol{\Sigma}\mathbf{\Phi}^{T}\mathbf{t}\\
\end{aligned}
よって(7.106)式が得られる.2行目から3行目への式変形に(C.7)式を用い,4行目から5行目の式変形で(7.83)式を用いた.
また\mathbf{t}を\boldsymbol{\varphi}_iとして上記と同様の計算を行うことでS_iについての式(7.107)が求まる.
演習 7.18
RVM分類モデルの対数事後確率分布
\begin{aligned}
\ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha})&=\ln \{p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w} \mid \boldsymbol{\alpha})\}-\ln p(\mathbf{t} \mid \alpha) \\
&=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}-\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\text { const. }
\end{aligned} \tag{7.109}
の勾配ベクトルおよびへシアン行列は
\nabla \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) =\boldsymbol{\Phi}^{\mathrm{T}}(\mathbf{t}-\mathbf{y})-\mathbf{A} \mathbf{w} \tag{7.110}
\nabla \nabla \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) =-\left(\Phi^{\mathrm{T}} \mathbf{B} \Phi+\mathbf{A}\right) \tag{7.111}
で与えられることを示せ.
p(\mathbf{w} \mid \boldsymbol{\alpha})は(7.80)から
\begin{aligned}
p(\mathbf{w} \mid \boldsymbol{\alpha}) &=\prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) \\
\ln p(\mathbf{w} \mid \boldsymbol{\alpha}) &=\sum_{i=1}^{M} \ln \left[\left(\frac{\alpha_{i}}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\alpha_{i} w_{i}^{2}}{2}\right\}\right]=-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{Aw} + \textrm{const.}
\end{aligned}
である。
p(\mathbf{t} \mid \mathbf{w})は(4.90)式のクロスエントロピー誤差関数E(\mathbf{w})の符号を反転させたもの
\ln p(\mathbf{t} \mid \mathbf{w})=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}
である。
演習4.13と同様に\ln p(\mathbf{t} \mid \mathbf{w})の\mathbf{w}についての勾配は
\begin{aligned}
\nabla_{\mathbf{w}} \ln p &=\frac{\partial \ln p}{\partial y_{n}} \frac{\partial y_{n}}{\partial a_{n}} \nabla_{\mathbf{w}} a_{n} \\
\frac{\partial \ln p}{\partial y_{n}} &=\sum_{n=1}^{N}\left(\frac{t_{n}}{y_{n}}-\frac{1-t_{n}}{1-y_{n}}\right) \\ &=\sum_{n=1}^{N} \frac{t_{n}-y_{n}}{y_{n}\left(1-y_{n}\right)} \\
\frac{\partial y_{n}}{\partial a_{n}} &= \sigma\left(a_{n}\right)\left(1-\sigma\left(a_{n}\right)\right)=y_{n}\left(1-y_{n}\right) \\
\nabla_{\mathbf{w}} a_{n}&=\boldsymbol{\phi}_{n}
\end{aligned}
よって
\begin{aligned}
\nabla_{\mathbf{w}} \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) &=\sum_{n=1}^{N}\left(t_{n}-y_{n}\right) \boldsymbol{\phi}_{n}-\frac{1}{2} \cdot 2 \mathbf{Aw} \\ &=\mathbf{\Phi}^{\mathrm T}(\mathbf{t}-\mathbf{y})-\mathbf{Aw}
\end{aligned}
ヘッセ行列は
\begin{aligned}
\nabla_{\mathbf{w}}\left(\mathbf{\Phi}^{\mathrm T}(\mathbf{t}-\mathbf{y})-\mathbf{Aw}\right) &=-\sum_{n=1}^{N}\left(\frac{\partial y_{n}}{\partial a_{n}} \nabla_{\mathbf{w}} a_{n}\right) \boldsymbol{\phi}_{n}^{\mathrm T}-\mathbf{A}^{\mathrm T} \\
&=-\sum_{n=1}^{N} y_{n}\left(1-y_{n}\right) \boldsymbol{\phi}_{n} \boldsymbol{\phi}_{n}^{\mathrm T}-\mathbf{A} \\
&=-\left(\mathbf{\Phi}^{\mathrm T} \mathbf{B} \mathbf{\Phi}+\mathbf{A}\right)
\end{aligned}
となる。
演習 7.19
RVM分類モデルにおいて,周辺尤度関数の近似式
\begin{aligned}
p(\mathbf{t} \mid \boldsymbol{\boldsymbol{\alpha} }) &=\int p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w} \mid \boldsymbol{\boldsymbol{\alpha} }) \mathrm{d} \mathbf{w} \\
& \simeq p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right) p\left(\mathbf{w}^{\star} \mid \boldsymbol{\boldsymbol{\alpha} }\right)(2 \pi)^{M / 2}|\mathbf{\Sigma}|^{1 / 2}
\end{aligned} \tag{7.114}
を最大化すると,超パラメータの更新式
\alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{\left(w_{i}^{\star}\right)^{2}} \tag{7.116}
が得られることを示せ.
\mathbf{w}^{\star}を用いると条件付き確率(4.89)、事前分布(7.80)はそれぞれ
\begin{aligned}
p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right) &= \prod_{n=1}^{N} y_{n}^{t_n}\left(1-y_{n}\right)^{1-t_{n}} \\
p\left(\mathbf{w}^{\star} \mid \boldsymbol{\alpha} \right) &= \prod_{i=1}^{M} \mathcal{N} \left(w_{i}^{*} \mid 0, \alpha_{i}^{-1}\right) = \left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \exp \left\{-\frac{\alpha_{i}{w_{i}^{\star}}^{2}}{2}\right\}
\end{aligned}
であるから(7.114)式の対数をとって対数周辺化尤度を求めると
\begin{aligned}
\ln p(\mathbf{t} \mid \boldsymbol{\alpha} ) &=
\ln p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right)+\ln p\left(\mathbf{w}^{\star} \mid \boldsymbol{\alpha} \right)+\frac{M}{2} \ln (2 \pi)+\frac{1}{2}\ln |\mathbf{\Sigma}| \\
&=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}^{*}+\left(1-t_{n}\right) \ln \left(1-y_{n}^{*}\right)\right\} \\
& -\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{N} \ln \alpha_{i}-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}| \\
&=\left[\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}{ }^{*}+\left(1-t_{n}\right) \ln \left(1-y_{n}{ }^{*}\right)\right\}\right]-\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{N} \ln \alpha_{i}+\frac{1}{2} \ln |\mathbf{\Sigma}|
\end{aligned}
\alpha_iについての微分を0とすると、今\mathbf{w} = \mathbf{w}^{\star}で固定されているので、y_n^{\star} = \sigma(a_n) = \sigma({\mathbf{w}^{\star}}^{\mathrm T}\boldsymbol{\phi}_n)も固定されている。つまり[\ ]以外の項について微分を取れば良い。
\begin{aligned}
\frac{\partial}{\partial \alpha_{i}}\left[-\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{M} \ln \alpha_{i}+\frac{1}{2} \ln |\mathbf{\Sigma}|\right]=0 \\
-\frac{1}{2}\left(w_{i}^{*}\right)^{2}+\frac{1}{2} \frac{\partial}{\partial \alpha_{i}}\left(\ln \alpha_{i}\right)+\frac{1}{2} \frac{\partial}{\partial \alpha_{i}} \ln |\mathbf{\Sigma}|=0 \\
-\frac{1}{2}\left(w_{i}^{*}\right)^{2}+\frac{1}{2 \alpha_{i}}-\frac{1}{2} \Sigma_{i i}=0 \quad (\because 演習 7.12)
\end{aligned}
以上から(7.115)式が得られた。これに\gamma_i = 1 - \alpha_{i} \Sigma_{ii}を導入すれば
\begin{aligned}
\alpha_{i}\left(w_{i}^{*}\right)^{2} &= 1-\alpha_{i} \Sigma_{i i}=\gamma_{i} \\ \therefore \ \alpha_{i} &= \frac{\gamma_{i}}{\left(w_{i}^{*}\right)^{2}}
\end{aligned}
これが\alpha_{i}の更新式となり\displaystyle \left( \alpha_{i}^{\textrm {(new)}} \leftarrow \frac{\gamma_{i}}{\left(w_{i}^{*}\right)^{2}} \right)、(7.87)と同一である。
Discussion
演習問題7.3の解答の、下から11行目の”(3)”のところですが、
"(3)をW、bについて微分した後、それを0に等しいとおくと、” ※テキストP38(7.8)(7.9)の表現
という記載が漏れているように思います。
ありがとうございます。修正しました。不思議なことに入力のMarkdownにはその部分の記述があったのですが、反映されていませんでした。
瑣末ではありますが、
演習問題7.11の解答の、下から3行目のN()の中の平均と分散を区切る","が、"+"になっているようです。
修正いたしました。ありがとうございます。
演習問題7.16の解答の、下から2行目ですが、-1/2 * (q^2-s)^4 / (s^4*q^4)ではないかと思いますがいかがでしょうか?
演習問題7.17の解答の、上から4行目と5行目のA^-1はAではないかと思いますが、いかがでしょうか?
7.16と合わせて修正いたしました。ありがとうございます。