🧠

PRML 第7章解答例

2022/05/15に公開
7

はじめに

PRML解答例まとめを参照

演習 7.1

今,入力ベクトルのデータ集合\{\mathbf{x}_n\}とそれに対応する目標値t_n \in \{-1, 1\}が与えられ,かつ,それぞれのクラス分布をカーネル関数k(\mathbf{x}, \mathbf{x}^{\prime})を用いてParzen推定法(2.5.1節参照)でモデル化したとするそれぞれのクラスの事前確率が等しいとしたとき,誤分類率が最も小さくなる分類規則を求めよ.またカーネルがk(\mathbf{x}, \mathbf{x}^{\prime}) = \mathbf{x}^{\mathrm T}\mathbf{x}^{\prime}どという形で表される場合,分類規則は単に重心との距離が近い方のクラスを新しい入力ベクトルに割り当てる, という形になることを示せ.最後にカーネルがk(\mathbf{x}, \mathbf{x}^{\prime}) = \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\boldsymbol{\phi}(\mathbf{x}^{\prime})という形の場合は,分類規則は特徴空間\boldsymbol{\phi}(\mathbf{x})において最も重心が近いクラスを割り当てることに等しいことを示せ.


(2.249)に従い、p(\mathbf{x}|t)

p(\mathbf{x} \mid t) \propto\left\{\begin{array}{l}\frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=+1 \\ \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=-1\end{array}\right.

と書ける。各クラスの事前確率が等しいと仮定するので、事後確率p(t|\mathbf{x})

p(t \mid \mathbf{x}) \propto\left\{\begin{array}{l}\frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=+1 \\ \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t=-1\end{array}\right.

となる。新しい\mathbf{x}^{\star}を分類するには、p(t|\mathbf{x}^{\star})を最大化するt^{\star}を探せばいいので、

t^{\star}=\left\{\begin{array}{c}+1 \text { if } \frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right) \geq \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right) \\ -1 \text { if } \frac{1}{N_{+1}} \sum_{t=+1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right) \leq \frac{1}{N_{-1}} \sum_{t=-1} k\left(\mathbf{x}^{\star}, \mathbf{x}_{n}\right)\end{array}\right.

ここでk(\mathbf{x}, \mathbf{x}') = \mathbf{x}^{T}\mathbf{x}'のとき、

\begin{aligned} \frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}, \mathbf{x}_n) & = \frac{1}{N_{+1}} \sum_{t = +1} \mathbf{x}^{T}\mathbf{x}_n \\ &= \frac{1}{N_{+1}} \sum_{i = 1}^{N_{+1}} x_1 (x_{n1} + x_{n2} + \cdots + x_{nd}) + \cdots + x_d (x_{n1} + x_{n2} + \cdots + x_{nd}) \\ &= x_1 (\bar{x}_{+1,1} + \bar{x}_{+1,2} + \cdots + \bar{x}_{+1,d}) + \cdots + x_d (\bar{x}_{+1,1} + \bar{x}_{+1,2} + \cdots + \bar{x}_{+1,d}) \\ &= \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \end{aligned}

同様に、

\begin{aligned} \frac{1}{N_{+1}} \sum_{t = -1} k(\mathbf{x}, \mathbf{x}_n) = \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \end{aligned}

よって、上記の分類規則は

\begin{aligned} t^{\star} = \begin{cases} +1\ \ \mathrm{if}\ \ \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \geq \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \\ -1\ \ \mathrm{if}\ \ \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \leq \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \end{cases} \end{aligned}

となる。
k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^{T}\phi(\mathbf{x}')としたときも、同様の計算により、

\begin{aligned} t^{\star} = \begin{cases} +1\ \ \mathrm{if}\ \ \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{+1} \geq \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{-1} \\ -1\ \ \mathrm{if}\ \ \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{+1} \leq \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{-1} \end{cases} \end{aligned}

ここで\bar{\phi}(\mathbf{x})_{+1} = \frac{1}{N_{+1}} \sum_{n = 1}^{N_{+1}} \phi(\mathbf{x}_n)\bar{\phi}(\mathbf{x})_{-1} = \frac{1}{N_{+1}} \sum_{n = 1}^{N_{-1}} \phi(\mathbf{x}_n)

演習 7.2

制約式

t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant 1, \quad n=1, \ldots, N \tag{7.5}

において,右辺の1を任意の正数\gammaで置き換えても,マージン最大の超平面は変化しないことを示せ.


t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant \gamma, \quad n=1, \cdots, N \tag{7.5.a}

と置き換えると、
\mathbf{w}^{\prime}=\frac{\mathbf{w}}{\gamma}, \quad b^{\prime}=\frac{b}{\gamma} .として

t_{n}\left(\mathbf{w}^{\prime\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b^{\prime}\right) \geqslant 1, \quad n=1, \ldots, N \tag{7.5.b}

と書け、マージンは

\min _{n} \frac{\left[t_{n}\left(\mathbf{w}^{\prime\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b^{\prime}\right)\right]}{\|\mathbf{w}^{\prime}\|} =\min _{n} \frac{\left[t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)\right]}{\|\mathbf{w}\|}

と変化しない。

演習 7.3

データ空間の次元数によらず各クラスに一つずつデータが存在すれば, 2つのデータ点だけから成るデータ集合でマージン最大の超平面を決定できることを示せ.


各クラスに一つずつデータ点が与えられたとき,その2点を \mathbf{x}_1\in\mathit{C}_+ (t_1 = +1)\mathbf{x}_2\in\mathit{C}_- (t_2 = -1) とすると以下の制約式のもとで式(7.6)を解くことでマージンを最大化する超平面が得られる

\underset{\mathbf{w}, b}{\arg \min }\,\frac{1}{2}||\mathbf{w}||^2\tag{7.6}
\mathbf{w}^{\mathrm{T}}\mathbf{x}_1+b= +1\tag{1}
\mathbf{w}^{\mathrm{T}}\mathbf{x}_2+b= -1\tag{2}

(7.6)式をラグランジュ乗数\lambda\etaを用いて解くと

\underset{\mathbf{w}, b}{\arg \min }\,\left\{\frac{1}{2}||\mathbf{w}||^2+\lambda(\mathbf{w}^{\mathrm{T}}\mathbf{x}_1+b-1)+\eta(\mathbf{w}^{\mathrm{T}}\mathbf{x}_2+b+1)\right\}\tag{3}

(3)式の\mathbf{w}bについて微分した式を0とおくと

0=\mathbf{w}+\lambda\mathbf{x}_1+\eta\mathbf{x}_2\tag{4}
0=\lambda+\eta\tag{5}

が得られ,(4),(5)式から

\mathbf{w}=\lambda(\mathbf{x}_2-\mathbf{x}_1)\tag{6}

また(1),(2)式からb

2b=-\mathbf{w}^{\mathrm{T}}(\mathbf{x}_1+\mathbf{x}_2)

であり,これと(6)式と合わせて

\begin{aligned} b=&-\frac{\lambda}{2}(\mathbf{x}_1-\mathbf{x}_2)^{\mathrm{T}}(\mathbf{x}_1+\mathbf{x}_2)\\=&-\frac{\lambda}{2}(\mathbf{x}_1^{\mathrm{T}}\mathbf{x}_1-\mathbf{x}_2^{\mathrm{T}}\mathbf{x}_2) \end{aligned}

のように求まり,マージンを最大化する超平面が定まる.

演習 7.4

マージン最大の超平面のマージン\rhoは,以下の式を満たすことを示せ.

\frac{1}{\rho^2}= \sum_{n=1}^N a_n \tag{7.123}

ただし\{a_n\}

\widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \tag{7.10}

を制約条件

a_{n} \geqslant 0, \hspace{2em} n=1, \ldots, N \tag{7.11}
\sum_{n=1}^{N} a_{n} t_{n}=0 \tag{7.12}

の下で解いて得られる解とする.


今、定義と、(7, 2)より、

\begin{aligned} \rho = \frac{t_n y(x_n)}{||\mathbf{w}||} = \frac{t_n (\mathbf{w}^T \phi(\mathbf{x}_n)+b)}{||\mathbf{w}||} \end{aligned}

である。今、分子と分母を定数倍すると、ある\mathbf{w}^{\star}において、

\begin{aligned} \rho = \frac{1}{||\mathbf{w}^{\star}||} \end{aligned}

が成り立つ。よって、\frac{1}{\rho^2} = ||\mathbf{w}^{\star}||^2であり、||\mathbf{w}^{\star}||^2 = \sum_{n=1}^N a_nを証明すれば題意は満たされる。今、(7, 10)より

\begin{aligned} \widetilde{L}(\mathbf{a}) &= \sum_n a_n - \frac{1}{2}\sum_n \sum_m a_n a_m t_n t_m k(\mathbf{x}_n, \mathbf{x}_m) \\ &= \sum_n a_n - \frac{1}{2}\sum_n a_n t_n \phi(\mathbf{x}_n) \sum_m a_m t_m \phi(\mathbf{x}_m) \\ &= \sum_n a_n - \frac{1}{2}||\mathbf{w^{\star}}||^2 &(\because (7, 8)) \end{aligned}

また、ラグランジュ乗数法の定義より。

\begin{aligned} \widetilde{L}(a) = L(\mathbf{w^{\star}}, b, \mathbf{a} ) = \frac{1}{2}||\mathbf{w}^{\star}||^2 &(\because (7.7)) \end{aligned}

よって、\sum_n a_n - \frac{1}{2}||\mathbf{w^{\star}}||^2 = \frac{1}{2}||\mathbf{w}^{\star}||^2であり、整理すると、題意が導かれる。

演習 7.5

前問における\rhoおよび\{a_n\}は,次の式を満たすことを示せ.

\frac{1}{\rho^{2}}=2 \widetilde{L}(\mathbf{a}) \tag{7.124}

ここで,\widetilde{L}(\mathbf{a})

\widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \tag{7.10}

で定義される関数である同様に以下の関係が成り立つことを示せ.

\frac{1}{\rho^{2}}= \|\mathbf{w}\|^2 \tag{7.125}

本問については、7.4ですでに示されている.

\begin{aligned} ( \because \widetilde{L}(a) = \frac{1}{2}||\mathbf{w}'||^2 , \rho = \frac{1}{||\mathbf{w}'||} ) \end{aligned}

演習 7.6

出力値がt\in\{-1, 1\}であるロジスティック回帰モデルについて考える.

y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b \tag{7.1}

という形のy(\mathbf{x})を用いて,p(t=1|y) = \sigma(y)とすると,対数尤度(の符号を反転したもの)に2乗ノルムの正則化項を加えたものは

\sum_{n=1}^{N} E_{\mathrm{LR}}\left(y_{n} t_{n}\right)+\lambda\|\mathbf{w}\|^{2} \tag{7.47}

という形を取ることを示せ.ただし

E_{\mathrm{LR}}(y t)=\ln (1+\exp (-y t)) \tag{7.48}

である.


ロジスティック回帰モデルはinputデータに対して各クラスの事後確率を求め
最も高い確率のクラスに分類する手法。

各クラスの事後確率はロジスティックシグモイド関数として以下のように書ける。

入力データがクラス1である確率:p(t=1 \mid y)=\sigma(y)
入力データがクラス2である確率:p(t=-1 \mid y)=1-\sigma(y)=\sigma(-y)
※\sigma(y)=\frac{1}{1+e^{-y}} y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b

学習データとして、各学習データがi.i.dの\mathcal{D}=\left\{\left(t_{1}, \mathbf{x}_{n}\right), \ldots,\left(t_{N}, \mathbf{x}_{N}\right)\right\}が与えられると
最適パラメータ(\mathbf{w},b)は以下の尤度を最大化することで得られる。

p(\mathcal{D})=\prod_{t_{n}=1} \sigma\left(y_{n}\right) \prod_{t_{n^{\prime}}=-1} \sigma\left(-y_{n^{\prime}}\right)=\prod_{n=1}^{N} \sigma\left(t_{n} y_{n}\right) ※y_{n}=y\left(\mathbf{x}_{n}\right) , t_{n} \in\{-1,1\}

これは、各学習データが正分類される確率を全データに対して掛け合わせたものを表しており
正しく正分類されているほど、尤度は大きくなる。負の対数尤度を取ると以下となる。

\begin{aligned}-\ln p(\mathcal{D}) &=-\ln \prod_{n=1}^{N} \sigma\left(t_{n} y_{n}\right) \\ &=\sum_{n=1}^{N} \ln \sigma\left(t_{n} y_{n}\right)^{\mathrm{-1}} \\ &=\sum_{n=1}^{N} \ln \left(1+\exp \left(-t_{n} y_{n}\right)\right) \end{aligned}

これに、\lambda\|\mathbf{w}\|^{2}を加えると(7.47)という形を取る。

演習 7.7

SVM回帰モデルのラグランジュ関数

\begin{aligned} L=&\ C \sum_{n=1}^{N}\left(\xi_{n}+\widehat{\xi}_{n}\right)+\frac{1}{2}\|\mathbf{w}\|^{2}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+y_{n}-t_{n}\right)-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-y_{n}+t_{n}\right) . \end{aligned} \tag{7.56}

について考える.(7.56)\mathbf{w}, b, \xi_{n}, \widehat{\xi}_{n}に対する偏微分をそれぞれ零とおき,その結果を代入することで双対ラグランジュ関数

\begin{aligned} \widetilde{L}(\mathbf{a}, \widehat{\mathbf{a}})=&-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \\ &-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n} \end{aligned} \tag{7.61}

が得られることを示せ.


(7.56)にy(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+bを代入して、スラック変数を分解すると以下の式が得られる。

\begin{aligned} L=& \sum_{n=1}^{N} C \xi_{n}+\sum_{n=1}^{N} C\widehat{\xi}_{n}+\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b-t_{n}\right) \\ &-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)-b+t_{n}\right) \qquad (*)\end{aligned}

ラグランジュ関数(7.56)の\mathbf{w}, b, \xi_{n}, \widehat{\xi}_{n}に対する偏微分をそれぞれ零とおくことで
以下の式が得られる。

\begin{aligned} &\frac{\partial L}{\partial \mathrm{w}}=0 \Rightarrow \mathrm{w}=\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) \phi\left(\mathrm{x}_{n}\right)\qquad (7.57)\\ &\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)=0\qquad (7.58)\\ &\frac{\partial L}{\partial \xi_{n}}=0 \Rightarrow a_{n}+\mu_{n}=C\qquad (7.59)\\ &\frac{\partial L}{\partial \widehat{\xi}_{n}}=0 \Rightarrow \widehat{a}_{n}+\widehat{\mu}_{n}=C\qquad (7.60)\ \end{aligned} (*)
\begin{aligned} L=& \sum_{n=1}^{N}\left(a_{n}+\mu_{n}\right) \xi_{n}+\sum_{n=1}^{N}\left(\widehat{a}_{n}+\widehat{\mu}_{n}\right) \widehat{\xi}_{n} \\ &+\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N}\left(a_{n} \xi_{n}+\widehat{a}_{n} \widehat{\xi}_{n}\right)-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n} \\ &-\sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)-b \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) . \end{aligned}

この式の第1,2項は、第4,5項とちょうど打ち消しあう。また、式(7.58)により最後の項は0になるので
まとめると(7.61)が得られる。

演習 7.8

7.1.4節で議論した SVM回帰モデルについて,\xi_{n} \gt 0が成り立つ訓練データ点についてはa_n = C,同様に\widehat{\xi}_{n} \gt 0が成り立つ訓練データ点については\widehat{a}_{n} = Cが成立することを示せ.


(7.67),(7.68)から明らか。

演習 7.9

RVM回帰モデルについて,重みに対する事後確率分布の平均および共分散が

\mathbf{m}=\beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \tag{7.82}
\mathbf{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}

で与えられることを示せ.


(7.79)式の直後の段落に記載された仮定(各w_iの事前確率分布の平均が0、分散が\alpha_i)により、(3.49)〜(3.51)式と(7.81)〜(7.83)式との対応関係は、

\begin{aligned} \mathbf{m}_{0} &=\mathbf{0} \\ \mathbf{S}_{0} &=\operatorname{diag}\left(\alpha_{\mathrm{i}}^{-1}\right) \\ \mathbf{m}_{N} &=\mathbf{m}: \text { definition } \\ \mathbf{S}_{N} &=\mathbf{\Sigma} \quad \text { definition } \end{aligned}

である。従って、

\begin{aligned} \mathbf{m} &=\mathbf{S}_{N}\left(\mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t}\right) \\ &=\beta \mathbf{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \\ \mathbf{\Sigma}^{-1} &=\left(\operatorname{diag}\left(\alpha_{\mathrm{i}}^{-1}\right)\right)^{-1}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \\ &=\operatorname{diag}\left(\alpha_{\mathrm{i}}\right)+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi} \\ \mathbf{\Sigma} &=\left(\mathbf{A}+\beta \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right)^{-1} \end{aligned}

となる。ただし、\mathbf{A}=\operatorname{diag}(\alpha_i)と定義した。

演習 7.10

RVM回帰モデルについて周辺化尤度関数の式

\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}

を,

p(\boldsymbol{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \boldsymbol{\alpha}) \mathrm{d} \mathbf{w} \tag{7.84}

\mathbf{w}に対する積分を実行することで導け.(指数に現れる2次式を平方完成するとよい.)


\begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{\mathbf{w}}, \beta) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\ &=\int \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm T} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) d \mathbf{w} \\ &=\int\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \prod_{n=1}^{N} \exp \left\{-\frac{\left(t_{n}-\mathbf{w}^{\mathrm T} \boldsymbol{\phi}(\mathbf{x})\right)^{2}}{2 \beta^{-1}}\right\}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \exp \left\{-\frac{w_{i}^{2}}{2 \alpha_{i}^{-1}}\right\} d \mathbf{w} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \int \exp \left\{-\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w}\right\} d \mathbf{w} \end{aligned}

ここで\mathbf{A} = \operatorname{diag}(\alpha_i)である。指数部分を整理すると

\begin{aligned} -\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w} &=-\frac{1}{2}\left\{\beta\left(\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} \mathbf{w}\right)+\mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w}\right\} \\ &=-\frac{1}{2}\left\{\mathbf{w}^{\mathrm T}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right) \mathbf{w}-2 \beta \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm T} \mathbf{t}\right\} \\ &=-\frac{1}{2}\left\{(\mathbf{w}-\mathbf{m})^{\mathrm T} \mathbf{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right\} \end{aligned}

ここで(3.49)の平方完成にならって\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)^{-1}, \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T}\mathbf{t}とした。これより\mathbf{w}についての積分が行えるので

\begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \int \exp \left\{-\frac{1}{2}\left\{(\mathbf{w}-\mathbf{m})^{\mathrm T} \mathbf{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right\}\right\} d \mathbf{w} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}}\left(2\pi\right)^{\frac{M}{2}}|\mathbf{\Sigma}|^{\frac{1}{2}} \exp \left\{-\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right)\right\} \end{aligned}

となる。そしてさらに\mathbf{t}について再度指数部分を整理すると

\begin{aligned} -\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) &= - \frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Sigma}^{-1} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \beta\right) \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \mathbf{\Phi}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm T}\left(\left(\beta^{-1} \mathbf{I}\right)^{-1}-\left(\beta^{-1} \mathbf{I}\right)^{-1} \mathbf{\Phi}\left(\mathbf{A}+\mathbf{\Phi}^{\mathrm T}\left(\beta^{-1} \mathbf{I}\right)^{-1} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm T}\left(\beta^{-1} \mathbf{I}\right)^{-1}\right) \mathbf{t} \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{-1} \mathbf{t} \hspace{1em} (\because \textrm{Woodburyの公式}, \textrm{(C.7)})\\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \end{aligned}

となる。ただし、最後で\mathbf{C} = \beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}とした。以上から対数を取ることで

\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &= \frac{N}{2}(\ln\beta -\ln (2\pi)) + \frac{1}{2}\ln |\mathbf{\Sigma}| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\ &= -\frac{N}{2}\ln(2\pi) + \frac{N}{2}\ln \beta +\frac{1}{2}\ln\left| \mathbf{\Sigma} \right| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\ &= -\frac{N}{2}\ln(2\pi) - \frac{1}{2}\ln |\mathbf{C}| -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \end{aligned}

となり、展開することで(7.85)式を得られる。

※ 最後の式変形部分について、\displaystyle \frac{N}{2}\ln \beta + \frac{1}{2}\ln |\mathbf{\Sigma}| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i = -\frac{1}{2}\ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|を示す。

これは\displaystyle \ln \left(\beta^{N} \cdot |\mathbf{\Sigma}| \cdot \prod_{i=1}^{M} \alpha_{i} \right) = \ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|^{-1}を示せれば良い。

\begin{aligned} \ln \left(\beta^{N} \cdot |\mathbf{\Sigma}| \cdot \prod_{i=1}^{M} \alpha_{i}\right) &=\ln (|\beta \mathbf{I}| |\mathbf{A}| |\mathbf{\Sigma}|) \quad (\because |\beta\mathbf{I}| = \beta^N, |\mathbf{A}||\mathbf{B}| = |\mathbf{B}||\mathbf{A}|)\\ &=\ln \left(\left|(\beta \mathbf{I})^{-1}\right|^{-1}\left|\mathbf{A}^{-1}\right|^{-1}\left|\mathbf{A}+\mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right|^{-1}\right) \quad (\because(\mathrm{C}. 3)) \\ &=\ln \left|(\beta \mathbf{I})^{-1} \mathbf{A}^{-1}\left(\mathbf{A}+\mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right)\right|^{-1} \quad (\because(\mathrm{C}. 12)) \\ &=\ln\left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right)\right|^{-1} \\ &=\ln \left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\left(\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{\mathrm{T}}((\beta \mathbf{I}) \mathbf{\Phi})^{\mathrm{T}}\right)\right|^{-1}\quad (\because(\mathrm{C} .14)) \\ &=\ln \left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I})\right)\right|^{-1} \quad \left(\because\left(\mathbf{A}^{-1}\right)^{\mathrm{T}}=\mathbf{A}^{-1}\right) \\ &=\ln \left|\left(\mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I})\right)(\beta \mathbf{I})^{-1}\right|^{-1} \quad \left(\because |\mathbf{AB}| = |\mathbf{BA}|\right) \\ &=\ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|^{-1} \end{aligned}

演習 7.11

前問を,

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}

の結果を用いて解け.


(2.115)式に代入するだけで求まる。

演習7.10の途中式から

\begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\ &=\int \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) d \mathbf{w} \\ &=\int \mathcal{N} \left( \mathbf{t} \mid \mathbf{\Phi w}, \beta^{-1}\mathbf{I} \right) \mathcal{N} \left( \mathbf{w} \mid \mathbf{0}, \mathbf{A}^{-1} \right) d\mathbf{w} \end{aligned}

(2.115)式を使って周辺化すると

\begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &= \mathcal{N}\left(\mathbf{t} \mid \mathbf{\Phi 0}, \left(\beta^{-1} \mathbf{I}\right)+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm T}\right) \\ &=\mathcal{N}\left(\mathbf{t} \mid \mathbf{0}, \mathbf{C}\right) \end{aligned}

となるので、(7.85)式が求められた。

演習 7.12

RVM回帰モデルについて周辺化対数尤度

\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}

を直接最大化すると,更新式

\alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{m_{i}^{2}} \tag{7.87}

および

\left(\beta^{\text {new}}\right)^{-1}=\frac{\|\mathbf{t}-\Phi \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \tag{7.88}

が得られることを示せ.ただし\gamma_i

\mathbf{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}

で定義される共分散行列\mathbf{\Sigma}i番目の対角成分を用いて

\gamma_i = 1-\alpha_i \Sigma_{ii} \tag{7.89}

で与えられるものとする.


\mathbf{\Phi},\mathbf{\Phi}^{\mathrm T},\mathbf{\Sigma}はそれぞれM\times N,N\times M, N\times N行列、\mathbf{t}, \mathbf{m}はそれぞれM, N次元ベクトルである。

演習 7.10または7.11の結果から

\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta)=\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{1}{2} \sum_{i=1}^{M} \ln \alpha_{i}-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}

となる。次にテキスト58ページのように、この対数尤度の微分を0とする。

まず\alpha_iについて偏微分するが、準備として\mathbf{I}_{ii}ii成分のみ1で残りを0とする行列とする。これを用いて上式第3項の\alpha_iについての偏微分は

\begin{aligned} \frac{\partial}{\partial \alpha_{i}} \ln |\mathbf{\Sigma}| &=-\frac{\partial}{\partial \alpha_{i}} \ln \left|\mathbf{\Sigma}^{-1}\right| \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \alpha_{i}}\right] \quad(\because \textrm{(C.22)}) \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial}{\partial \alpha_{i}}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)\right] \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{I}_{i i}\right] \\ &=-\Sigma_{i i} \end{aligned}

第5項の\alpha_iについての偏微分は、\mathbf{\Sigma}が対称行列であることと\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)^{-1}, \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T}\mathbf{t}を利用して

\begin{aligned} \frac{\partial}{\partial \alpha_{i}}\left(\mathbf{t}^{\mathrm{T}} \mathbf{C} \mathbf{t}\right) &=\frac{\partial}{\partial \alpha_{i}}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) \quad (\because 演習7.10)\\ &=-\frac{\partial}{\partial \alpha_{i}}\left(\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) \\ &=-\frac{\partial}{\partial \alpha_{i}}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Sigma}^{-1} \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \quad (\because \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t})\\ &=-\frac{\partial}{\partial \alpha_{i}}\left(\beta^{2} \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \\ &=-\operatorname{Tr}\left[ \left( \frac{\partial}{\partial \mathbf{\Sigma}^{-1}} \beta^{2} \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \right)^{\mathrm T} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \alpha_i}\right] \quad (\because \textrm{Matrix Cookbook (137)}) \\ &=-\operatorname{Tr}\left[\beta^{2}\left(-\mathbf{\Sigma}\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \mathbf{\Sigma}\right)^{\mathrm T} \mathbf{I}_{i i}\right] \quad (\because \textrm{Matrix Cookbook (61)}) \\ &=\operatorname{Tr}\left[\left(\mathbf{mm}^{\mathrm T}\right)^{\mathrm T} \mathbf{I}_{i i}\right] \\ &=m_{i}^2 \end{aligned}

となる。m_i(7.82)で定義される事後平均\mathbf{m}i番目の要素である。また途中の式変形でMatrix Cookbookに掲載されている行列の微分の公式を用いた。

\frac{\partial}{\partial \alpha_{i}}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta) = -\frac{1}{2}\Sigma_{ii} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2}

これを0として移項すると

\begin{aligned} & \alpha_{i} m_{i}^{2} = 1-\alpha_{i} \Sigma_{i i} \\ & \therefore \alpha_{i} = \frac{1-\alpha_{i} \Sigma_{i i}}{m_{i}^{2}}=\frac{\gamma_{i}}{m_{i}^{2}} \end{aligned}

これが求める\alpha_i^{\textrm{new}}となる。

同様にして\betaについて偏微分する。\ln pの第3項について

\begin{aligned} \frac{\partial}{\partial \beta}\ln | \mathbf{\Sigma} | &= -\frac{\partial}{\partial \beta} \ln \left|\mathbf{\Sigma}^{-1}\right| \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \beta}\right] \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right] \end{aligned}

第5項について

\begin{aligned} \frac{\partial}{\partial \beta}\left(\mathbf{t}^{\mathrm T} \mathbf{C} \mathbf{t}\right) &=\frac{\partial}{\partial \beta}\left(\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{C} \mathbf{m}\right) \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-\frac{\partial}{\partial \beta}\left(\beta^{2} \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right) \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \beta\left(\mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)-\beta^{2} \frac{\partial}{\partial \beta}\left(\mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right) \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}-\beta^{2} \operatorname{Tr}\left[\frac{\partial}{\partial \mathbf{\Sigma}^{-1}}\left(\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \beta}\right] \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\beta^{2} \operatorname{Tr}\left[\mathbf{\Sigma}\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)(\mathbf{\Phi}^{\mathrm T} \mathbf{t})^{\mathrm T} \mathbf{\Sigma} \cdot\left(\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)\right] \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\operatorname{Tr}\left[\mathbf{m} \mathbf{m}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right] \\ &=\mathbf{t}^{2} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\operatorname{Tr}\left[\mathbf{m}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} \mathbf{m}\right] \\ &=\mathbf{t}^{2} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+(\mathbf{\Phi} \mathbf{m})^{\mathrm T} \mathbf{\Phi} \mathbf{m} \\ &=\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} \end{aligned}

これより、

\frac{\partial}{\partial \beta}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta)=\frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right)

となる。このうち\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]について

\begin{aligned} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} &=\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\beta^{-1} \mathbf{\Sigma} \mathbf{A}-\beta^{-1} \mathbf{\Sigma} \mathbf{A} \\ &=\mathbf{\Sigma}\left(\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{A}\right) \beta^{-1}-\beta^{-1} \mathbf{\Sigma} \mathbf{A} \\ &=\mathbf{I} \beta^{-1}-\beta^{-1} \Sigma \mathbf{A} \\ &=\beta^{-1}(\mathbf{I}-\mathbf{\Sigma} \mathbf{A}) \end{aligned}

となるので、

\begin{aligned} \ & \frac{\partial}{\partial \beta}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta) = 0 \\ \Leftrightarrow &\ \frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) = 0 \\ \Leftrightarrow &\ \beta^{-1} = \frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\operatorname{Tr}(\mathbf{I}-\mathbf{\Sigma A})}=\frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \end{aligned}

これが\left(\beta^{\text {new}}\right)^{-1}となる。

\alpha_{i}^{\text {new }}\left(\beta^{\text {new}}\right)^{-1}も1つ前の\alpha_i, \beta^{-1}の値に依存しているので、これら超パラメータの学習はP.58に書かれているように、適当な初期値を決めてから更新していき、適当な収束条件が満たされるまで繰り返される。

演習 7.13

本文では,RVM回帰モデルについて,

\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}

の周辺化尤度の最大化から,更新式

\alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{m_{i}^{2}} \tag{7.87}

および

\left(\beta^{\text {new}}\right)^{-1}=\frac{\|\mathbf{t}-\Phi \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \tag{7.88}

を導いた.超パラメータの事前分布を

\operatorname{Gam}(\tau \mid a, b)=\frac{1}{\Gamma(a)} b^{a} \tau^{a-1} e^{-b \tau} \tag{B.26}

の形のガンマ分布に変更したときの\boldsymbol{\alpha}\betaに対する更新式を,同様に事後確率p(\mathbf{t}, \boldsymbol{\alpha}, \beta \mid \mathbf{X})\boldsymbol{\alpha}\betaに対して最大化することで導出せよ.


題意により、\mathbf{\alpha}_i\betaの事前分布を以下のように定める。ここで、全ての\alpha_iについてパラメータa,bは共通とした。(本文では\alphaが確率変数ではないので、iに応じて異なるパラメータにしないと関連度自動決定の議論に繋がらないが、\alphaを確率変数とみなすことで、各iについて同一のパラメータを採用することができる。)

\begin{aligned} p(\alpha_i) = \operatorname{Gam}(\alpha_i \mid a, b) = \frac{1} {\Gamma(a)} b^{a} \alpha_i{}^{a-1} e^{-b \alpha_i} \\ p(\beta) = \operatorname{Gam}(\beta \mid \tilde{a}, \tilde{b}) = \frac{1}{\Gamma(\tilde{a})} \tilde{b}^{\tilde{a}} \beta^{\tilde{a}-1} e^{-\tilde{b} \beta} \end{aligned}

尤度関数p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) = p(\mathbf{t} \mid \mathbf{X}, \mathbf{\alpha}, \beta) \prod_i p(\alpha_i) p(\beta)を最大化する\mathbf{\alpha}\betaを求める。

対数尤度関数は、以下の通り。

\begin{aligned} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) =& \frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{1}{2} \sum_{j=1}^{M} \ln \alpha_{j}-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\ &+ \sum_{j=1}^M \left\{ a \ln b + (a-1)\ln \alpha_j - b \alpha_j - \ln \Gamma (a) \right\} \\ &+ \left\{ \tilde{a} \ln \tilde{b} + (\tilde{a}-1)\ln \beta - \tilde{b} \beta - \ln \Gamma (\tilde{a}) \right\} \end{aligned}

対数尤度関数を\alpha_i\betaで偏微分する。1行目の偏微分は演習(7.12)に登場する式変形を参照。

\begin{aligned} \frac{\partial}{\partial \alpha_i} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) =& \left( -\frac{1}{2}\Sigma_{ii} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} \right) + \left( \frac{a-1}{\alpha_i} - b \right) \\ =& -\frac{1}{2} \frac{1 - \gamma_i}{\alpha_i} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} + \frac{a-1}{\alpha_i} - b \\ =& \frac{1}{2 \alpha_i} \left\{ -(1 - \gamma_i) + 1 + 2(a-1) \right\} - \frac{1}{2} (m_i^2 + 2b)\\ =& \frac{1}{2 \alpha_i} \left( \gamma_i + 2a -2 \right) - \frac{1}{2} (m_i^2 + 2b) \end{aligned}

右辺=0を解いて、

\begin{aligned} \alpha_i =\frac{\gamma_i + 2a -2}{m_i^2 + 2b} \end{aligned}

となる。でも、公式解答は

\begin{aligned} \alpha_i =\frac{\gamma_i + 2a -2}{m_i^2 - 2b} \end{aligned}

となっている・・・。次に、

\begin{aligned} \frac{\partial}{\partial \beta} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) =& \frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) +(\tilde{a} -1)\frac{1}{\beta}-\tilde{b} \\ =& \frac{1}{2}\left(\frac{N}{\beta}-\frac{\sum_i \gamma_i}{\beta}-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) +(\tilde{a} -1)\frac{1}{\beta}-\tilde{b} \\ =& \frac{1}{2}\left\{ \frac{ N-\sum_i \gamma_i +2(\tilde{a}-1) }{\beta} - \left( \|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b} \right) \right\} \end{aligned}

右辺=0を解いて、

\begin{aligned} \beta^{-1} =\frac {\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b}} {2\tilde{a}-2+N-\sum_i \gamma_i} \end{aligned}

となる。でも、公式解答は

\begin{aligned} \beta^{-1} =\frac {\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b}} {\tilde{a}+2+N-\sum_i \gamma_i} \end{aligned}

となっている・・・。

演習 7.14

RVM回帰モデルの予測確率分布が

\begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}, \alpha^{\star}, \beta^{\star}\right) &=\int p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}^{\mathrm{T}} \phi(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned} \tag{7.90}

で与えられることを示せ.また,その予測分布の分散が

\sigma^{2}(\mathbf{x})=\left(\beta^{\star}\right)^{-1}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{\Sigma} \boldsymbol{\phi}(\mathbf{x}) \tag{7.91}

で与えられることも示せ.ここで,\mathbf{\Sigma}

\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}

において\alpha = \alpha^{\star}および\beta = \beta^{\star}としたものである.


(7.76)式,(7.81)式から

\begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) &=\mathcal{N}\left(t \mid \mathbf{w}^{\mathrm{T}} \phi(\mathbf{x}), (\beta^{\star})^{-1}\right ) \\ & \end{aligned}
\begin{aligned} p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right)&=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}, \mathbf{\Sigma} \right ) \\ & \end{aligned}

(2.115)式において、A\mathbf{x}\mathbf{w}^{\mathrm{T}} \phi(\mathbf{x})に、L^{-1}(\beta^{\star})^{-1}に、\mu\mathbf{m}に、\Lambda^{-1}\Sigmaに置き換えると、

\begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}, \alpha^{\star}, \beta^{\star}\right) &=\int p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}^{\mathrm{T}} \phi(\mathbf{x}), \left(\beta^{\star}\right)^{-1}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{\Sigma} \boldsymbol{\phi}(\mathbf{x})\right) \end{aligned}

となる。

演習 7.15

|\mathbf{C}| =\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}\right) \tag{7.94}

および

\mathbf{C}^{-1} =\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}} \tag{7.95}

を用いて,周辺化尤度

\begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85}

L(\boldsymbol{\alpha})=L\left(\boldsymbol{\alpha}_{-i}\right)+\lambda\left(\alpha_{i}\right) \tag{7.96}

の形に変形できることを示せ.ただし\lambda(\alpha_n)および品質/疎性パラメータはそれぞれ

\lambda\left(\alpha_{i}\right)=\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i}\right)+\frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right] \tag{7.97}
s_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i} \tag{7.98}
q_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \mathbf{t} \tag{7.99}

で定義されているとする.


(7.94)式は

\begin{aligned} |\mathbf{C}| &= \left| \mathbf{C}_{-i}\left(\mathbf{I}+\alpha_{i}^{-1} \mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right)\right| \\ &= \left| \mathbf{C}_{-i} \right| \left| \mathbf{I}+\alpha_{i}^{-1} \mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right| \\ &=\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1}\left(\mathbf{C}_{-i}^{-1} \varphi_{i}\right)^{\mathrm T} \varphi_{i}\right) \quad (\because (\textrm{C}. 15)) \\ &=\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}\right) \quad \left(\because \mathbf{C}_{-i}^{-1} = \left( \mathbf{C}_{-i}^{-1} \right)^{\mathrm T} \right) \end{aligned}

(7.95)式はWoodburyの公式を用いて求められる。

\begin{aligned} \left(\mathbf{C}_{-i}+\alpha_{i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right)^{-1} &=\mathbf{C}_{-i}^{-1}-\mathbf{C}_{-i}^{-1} \varphi_{i}\left(\alpha_{i} \mathbf{I}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}\right)^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \\ &=\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}} \end{aligned}

これらを用いて対数周辺尤度\displaystyle \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) =-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\}を計算すると

\begin{aligned} L(\boldsymbol{\alpha})=&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm T} \mathbf{C}^{-1} \mathbf{t}\right\} \\ =&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln \left(\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-1}^{-1} \varphi_{i}\right)\right)+\mathbf{t}^{\mathrm T}\left(\mathbf{C}_{-i}^{-1} - \frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}}\right) \mathbf{t}\right\} \\ =&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln \left(\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} s_{i}\right)\right)+\mathbf{t}^{\mathrm T} \mathbf{C}_{-i}^{-1} \mathbf{t} - \frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right\} \\ &(\because q_{i}^{2}=q_{i}^{\mathbf{T}}q_{i}=(\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})^{\mathbf{T}}(\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})=\mathbf{t}^{\mathbf{T}}(\mathbf{C}_{-i}^{-1})^{\mathbf{T}}\varphi_{i}\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t}) \\ =&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}_{-i}|+\mathbf{t}^{\mathrm T} \mathbf{C}_{-i}^{-1} \mathbf{t} \right\} -\frac{1}{2} \ln \left(\frac{\alpha_{i}+s_{i}}{\alpha_{i}}\right) + \frac{1}{2} \frac{q_{i}^{2}}{\alpha_{i}+s_{i}} \\ =&\ L(\boldsymbol{\alpha}_{-i})+\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i}\right)+\frac{q_{i}{ }^{2}}{\alpha_{i}+s_{i}}\right] \\ =&\ L(\boldsymbol{\alpha}_{-i})+\lambda(\alpha_i) \end{aligned}

以上より、(7.96)式が導出された。

演習 7.16

超パラメータ\alpha_iに対して, RVM回帰モデルの周辺化対数尤度

\begin{aligned} \lambda(\alpha_{i}) = \frac{1}{2}\left[ \ln \alpha_i - \ln(\alpha_i + s_i) +\frac{q_i^2}{\alpha_1 + s_i} \right] \end{aligned}

の2階微分を取ることで,

\alpha_{i}=\frac{s_{i}^{2}}{q_{i}^{2}-s_{i}} \tag{7.101}

で与えられる停留点が周辺化尤度の極大値であることを示せ.


\lambda(\alpha_i)を一階微分すると、

\begin{aligned} \frac{\partial \lambda(\alpha_i)}{\partial \alpha_i} = \frac{\alpha_i^{-1}s_i^2 - (q_i^2 -s_i)}{2(\alpha_i + s_i )^2} \end{aligned}

である。よって、その分子が0をとるとき、\alpha_iは極値をとる。よって、

\begin{aligned} &\alpha_i^{-1}s_i^2 - (q_i^2 -s_i) = 0 \\ &\Rightarrow \alpha_i =\frac{s_i^2}{q_i^2 - s_i} \end{aligned}

次に、2階微分は以下になる。

\begin{aligned} \frac{\partial^2 \lambda(\alpha_i)}{\partial^2 \alpha_i} = \frac{1}{2}\left[-\frac{1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2 }+\frac{2q_i^2}{(\alpha_i+s_i)^3} \right] \end{aligned}

次に、2階微分に\alpha_i =\frac{s_i^2}{q_i^2 - s_i}を代入した際に、0未満であれば、その\alpha_iは極大値であることが明らかになる。

\begin{aligned} \frac{1}{2}\left[-\frac{1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2 }+\frac{2q_i^2}{(\alpha_i+s_i)^3} \right] &= \frac{1}{2}\left[-\frac{1}{(\frac{s_i^2}{q_i^2 - s_i})^2}+\frac{1}{(\frac{s_i^2}{q_i^2 - s_i}+s_i)^2 }+\frac{2q_i^2}{(\frac{s_i^2}{q_i^2 - s_i}+s_i)^3} \right] \\ &= \frac{1}{2}\left[-\frac{(q_i^2 - s_i)^2}{s_i^4}+\frac{(q_i^2 - s_i)^2}{s_i^2 q_i^4}+\frac{2(q_i^2 - s_i)^3}{s_i^3 q_i^4}\right] \\ &= -\frac{1}{2}\frac{(q_i^2 - s_i)^4}{q_i^4 s_i^2} < 0 \ \ (\because q_i^2 - s_i > 0) \end{aligned}

よって、\displaystyle \alpha_i =\frac{s_i^2}{q_i^2 - s_i}において極大値を取る。

演習 7.17

\boldsymbol{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83}
\mathbf{C}=\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \tag{7.87}
\left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7}

を用いて,

Q_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \tag{7.102}
S_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \boldsymbol{\varphi}_{i} \tag{7.103}

で定義されるQ_n, S_nが,

Q_{i}=\beta \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{t}-\beta^{2} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \tag{7.106}
S_{i}=\beta \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\varphi}_{i}-\beta^{2} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\varphi}_{i} \tag{7.107}

に変形できることを示せ.


(7.102)式に(7.87)式を代入して

\begin{aligned} Q_{i}&=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\\ &=\boldsymbol{\varphi}_{i}^{T}(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}})^{-1}\mathbf{t}\\ &=\boldsymbol{\varphi}_{i}^{T}\left\{\beta\mathbf{I}-\beta^{2}\mathbf{\Phi}(\mathbf{A}+\beta\mathbf{\Phi}^{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^{T}\right\}\mathbf{t}\\ &=\beta\boldsymbol{\varphi}_{i}^{T}\mathbf{t}-\beta^{2}\boldsymbol{\varphi}_{i}^{T}\mathbf{\Phi}(\mathbf{A}+\beta\mathbf{\Phi}^{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^{T}\mathbf{t}\\ &=\beta\boldsymbol{\varphi}_{i}^{T}\mathbf{t}-\beta^{2}\boldsymbol{\varphi}_{i}^{T}\mathbf{\Phi}\boldsymbol{\Sigma}\mathbf{\Phi}^{T}\mathbf{t}\\ \end{aligned}

よって(7.106)式が得られる.2行目から3行目への式変形に(C.7)式を用い,4行目から5行目の式変形で(7.83)式を用いた.
また\mathbf{t}\boldsymbol{\varphi}_iとして上記と同様の計算を行うことでS_iについての式(7.107)が求まる.

演習 7.18

RVM分類モデルの対数事後確率分布

\begin{aligned} \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha})&=\ln \{p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w} \mid \boldsymbol{\alpha})\}-\ln p(\mathbf{t} \mid \alpha) \\ &=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}-\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\text { const. } \end{aligned} \tag{7.109}

の勾配ベクトルおよびへシアン行列は

\nabla \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) =\boldsymbol{\Phi}^{\mathrm{T}}(\mathbf{t}-\mathbf{y})-\mathbf{A} \mathbf{w} \tag{7.110}
\nabla \nabla \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) =-\left(\Phi^{\mathrm{T}} \mathbf{B} \Phi+\mathbf{A}\right) \tag{7.111}

で与えられることを示せ.


p(\mathbf{w} \mid \boldsymbol{\alpha})(7.80)から

\begin{aligned} p(\mathbf{w} \mid \boldsymbol{\alpha}) &=\prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) \\ \ln p(\mathbf{w} \mid \boldsymbol{\alpha}) &=\sum_{i=1}^{M} \ln \left[\left(\frac{\alpha_{i}}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\alpha_{i} w_{i}^{2}}{2}\right\}\right]=-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{Aw} + \textrm{const.} \end{aligned}

である。

p(\mathbf{t} \mid \mathbf{w})(4.90)式のクロスエントロピー誤差関数E(\mathbf{w})の符号を反転させたもの

\ln p(\mathbf{t} \mid \mathbf{w})=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}

である。

演習4.13と同様に\ln p(\mathbf{t} \mid \mathbf{w})\mathbf{w}についての勾配は

\begin{aligned} \nabla_{\mathbf{w}} \ln p &=\frac{\partial \ln p}{\partial y_{n}} \frac{\partial y_{n}}{\partial a_{n}} \nabla_{\mathbf{w}} a_{n} \\ \frac{\partial \ln p}{\partial y_{n}} &=\sum_{n=1}^{N}\left(\frac{t_{n}}{y_{n}}-\frac{1-t_{n}}{1-y_{n}}\right) \\ &=\sum_{n=1}^{N} \frac{t_{n}-y_{n}}{y_{n}\left(1-y_{n}\right)} \\ \frac{\partial y_{n}}{\partial a_{n}} &= \sigma\left(a_{n}\right)\left(1-\sigma\left(a_{n}\right)\right)=y_{n}\left(1-y_{n}\right) \\ \nabla_{\mathbf{w}} a_{n}&=\boldsymbol{\phi}_{n} \end{aligned}

よって

\begin{aligned} \nabla_{\mathbf{w}} \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) &=\sum_{n=1}^{N}\left(t_{n}-y_{n}\right) \boldsymbol{\phi}_{n}-\frac{1}{2} \cdot 2 \mathbf{Aw} \\ &=\mathbf{\Phi}^{\mathrm T}(\mathbf{t}-\mathbf{y})-\mathbf{Aw} \end{aligned}

ヘッセ行列は

\begin{aligned} \nabla_{\mathbf{w}}\left(\mathbf{\Phi}^{\mathrm T}(\mathbf{t}-\mathbf{y})-\mathbf{Aw}\right) &=-\sum_{n=1}^{N}\left(\frac{\partial y_{n}}{\partial a_{n}} \nabla_{\mathbf{w}} a_{n}\right) \boldsymbol{\phi}_{n}^{\mathrm T}-\mathbf{A}^{\mathrm T} \\ &=-\sum_{n=1}^{N} y_{n}\left(1-y_{n}\right) \boldsymbol{\phi}_{n} \boldsymbol{\phi}_{n}^{\mathrm T}-\mathbf{A} \\ &=-\left(\mathbf{\Phi}^{\mathrm T} \mathbf{B} \mathbf{\Phi}+\mathbf{A}\right) \end{aligned}

となる。

演習 7.19

RVM分類モデルにおいて,周辺尤度関数の近似式

\begin{aligned} p(\mathbf{t} \mid \boldsymbol{\boldsymbol{\alpha} }) &=\int p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w} \mid \boldsymbol{\boldsymbol{\alpha} }) \mathrm{d} \mathbf{w} \\ & \simeq p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right) p\left(\mathbf{w}^{\star} \mid \boldsymbol{\boldsymbol{\alpha} }\right)(2 \pi)^{M / 2}|\mathbf{\Sigma}|^{1 / 2} \end{aligned} \tag{7.114}

を最大化すると,超パラメータの更新式

\alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{\left(w_{i}^{\star}\right)^{2}} \tag{7.116}

が得られることを示せ.


\mathbf{w}^{\star}を用いると条件付き確率(4.89)、事前分布(7.80)はそれぞれ

\begin{aligned} p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right) &= \prod_{n=1}^{N} y_{n}^{t_n}\left(1-y_{n}\right)^{1-t_{n}} \\ p\left(\mathbf{w}^{\star} \mid \boldsymbol{\alpha} \right) &= \prod_{i=1}^{M} \mathcal{N} \left(w_{i}^{*} \mid 0, \alpha_{i}^{-1}\right) = \left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \exp \left\{-\frac{\alpha_{i}{w_{i}^{\star}}^{2}}{2}\right\} \end{aligned}

であるから(7.114)式の対数をとって対数周辺化尤度を求めると

\begin{aligned} \ln p(\mathbf{t} \mid \boldsymbol{\alpha} ) &= \ln p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right)+\ln p\left(\mathbf{w}^{\star} \mid \boldsymbol{\alpha} \right)+\frac{M}{2} \ln (2 \pi)+\frac{1}{2}\ln |\mathbf{\Sigma}| \\ &=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}^{*}+\left(1-t_{n}\right) \ln \left(1-y_{n}^{*}\right)\right\} \\ & -\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{N} \ln \alpha_{i}-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}| \\ &=\left[\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}{ }^{*}+\left(1-t_{n}\right) \ln \left(1-y_{n}{ }^{*}\right)\right\}\right]-\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{N} \ln \alpha_{i}+\frac{1}{2} \ln |\mathbf{\Sigma}| \end{aligned}

\alpha_iについての微分を0とすると、今\mathbf{w} = \mathbf{w}^{\star}で固定されているので、y_n^{\star} = \sigma(a_n) = \sigma({\mathbf{w}^{\star}}^{\mathrm T}\boldsymbol{\phi}_n)も固定されている。つまり[\ ]以外の項について微分を取れば良い。

\begin{aligned} \frac{\partial}{\partial \alpha_{i}}\left[-\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{M} \ln \alpha_{i}+\frac{1}{2} \ln |\mathbf{\Sigma}|\right]=0 \\ -\frac{1}{2}\left(w_{i}^{*}\right)^{2}+\frac{1}{2} \frac{\partial}{\partial \alpha_{i}}\left(\ln \alpha_{i}\right)+\frac{1}{2} \frac{\partial}{\partial \alpha_{i}} \ln |\mathbf{\Sigma}|=0 \\ -\frac{1}{2}\left(w_{i}^{*}\right)^{2}+\frac{1}{2 \alpha_{i}}-\frac{1}{2} \Sigma_{i i}=0 \quad (\because 演習 7.12) \end{aligned}

以上から(7.115)式が得られた。これに\gamma_i = 1 - \alpha_{i} \Sigma_{ii}を導入すれば

\begin{aligned} \alpha_{i}\left(w_{i}^{*}\right)^{2} &= 1-\alpha_{i} \Sigma_{i i}=\gamma_{i} \\ \therefore \ \alpha_{i} &= \frac{\gamma_{i}}{\left(w_{i}^{*}\right)^{2}} \end{aligned}

これが\alpha_{i}の更新式となり\displaystyle \left( \alpha_{i}^{\textrm {(new)}} \leftarrow \frac{\gamma_{i}}{\left(w_{i}^{*}\right)^{2}} \right)(7.87)と同一である。

Discussion

ChoikoChoiko

演習問題7.3の解答の、下から11行目の”(3)”のところですが、
"(3)をW、bについて微分した後、それを0に等しいとおくと、” ※テキストP38(7.8)(7.9)の表現
という記載が漏れているように思います。

DR YOSHITAKADR YOSHITAKA

ありがとうございます。修正しました。不思議なことに入力のMarkdownにはその部分の記述があったのですが、反映されていませんでした。

ChoikoChoiko

瑣末ではありますが、
演習問題7.11の解答の、下から3行目のN()の中の平均と分散を区切る","が、"+"になっているようです。

ChoikoChoiko

演習問題7.16の解答の、下から2行目ですが、-1/2 * (q^2-s)^4 / (s^4*q^4)ではないかと思いますがいかがでしょうか?

ChoikoChoiko

演習問題7.17の解答の、上から4行目と5行目のA^-1はAではないかと思いますが、いかがでしょうか?