🧠

PRML 第3章(3.13から3.24まで)解答例

2022/06/05に公開約41,700字

はじめに

PRML解答例まとめを参照

演習 3.13

演習問題3.12で議論したモデルに対する予測分布p(t|\mathbf{x},\mathsf{t})が次の形のスチューデントのt分布

p(t | \mathbf{x}, \mathsf{t})=\operatorname{St}(t | \mu, \lambda, \nu) \tag{3.114}

で与えられることを示し,\mu, \lambda, \nuについての式を求めよ.


p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right) \tag{3.8}
p(\mathbf{w}, \beta \mid \mathsf{t}, \mathbf{X}) = \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \tag{3.113}

3.3.2節の議論より,予測分布は

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{X}, \mathsf{t}) &= \iint p(t \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w}, \beta \mid \mathsf{t}, \mathbf{X}) \mathrm{d}\mathbf{w} \mathrm{d}\beta \\ &= \iint \mathcal{N}\left(t \mid \phi(\mathbf{x})^{\mathrm{T}} \mathbf{w}, \beta^{-1}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \mathrm{d} \beta \end{aligned}

となる.

ここで,\mathbf{w}についての積分は線形ガウスモデルなので,公式

p(\mathbf{x})=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right) \tag{2.113}
p(\mathbf{y} \mid \mathbf{x})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right) \tag{2.114}
p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathbf{T}}\right) \tag{2.115}

を用いる.

\tag{3.49} p(\mathbf{w} \mid \mathbf{t})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right)

(2.113)に,

\tag{3.8} p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right)
\tag{3.3} y(\mathbf{x}, \mathbf{w})=\sum_{j=0}^{M-1} w_{j} \phi_{j}(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \phi(\mathbf{x})

(2.114)に適応するために

\begin{aligned} \mathbf{x} \Rightarrow \mathbf{w} \quad \boldsymbol{\mu} \Rightarrow \mathbf{m}_{N} \quad \mathbf{\Lambda}^{-1} \Rightarrow \mathbf{S}_{N} \quad \mathbf{y} \Rightarrow t \quad \mathbf{A} \Rightarrow \phi(\mathbf{x})^{\mathrm{T}}=\phi^{\mathrm{T}} \quad \mathbf{b} \Rightarrow \mathbf{0} \quad \mathbf{L}^{-1} \Rightarrow \beta^{-1} \end{aligned}

と置き換えると,(2.115)より

\begin{aligned} p(t \mid \beta) &=\mathcal{N}\left(t \mid \phi^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1}+\phi^{\mathrm{T}} \mathbf{S}_{N} \phi\right) \\ &=\mathcal{N}\left(t \mid \phi^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1}\left(1+\phi^{\mathrm{T}}\left(\mathbf{S}_{0}+\phi^{\mathrm{T}} \phi\right)^{-1} \phi\right)\right) \end{aligned}

となる.ただし,演習問題3.12より,\beta \mathbf{S}_{N}^{-1} = \beta\left[ \mathbf{S}_0^{-1} + \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \right]を用いた.

したがって予測分布は

p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) = \int \mathcal{N}\left(t \mid \phi^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1} s\right) \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \mathrm{d} \beta

と変形できる.ただし

s=1+\boldsymbol{\phi}^{\mathrm{T}}\left(\mathbf{S}_{0}+\boldsymbol{\phi}^{\mathrm{T}} \boldsymbol{\phi}\right)^{-1} \boldsymbol{\phi}

とおいた.ここで,スチューデントのt分布の式

\tag{2.158} \begin{aligned} p(x \mid \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x \mid \mu, \tau^{-1}\right) \operatorname{Gam}(\tau \mid a, b) \mathrm{d} \tau \\ &=\int_{0}^{\infty} \frac{b^{a} e^{(-b \tau)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ &=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{1 / 2}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-1 / 2} \Gamma(a+1 / 2) \end{aligned}
\tag{2.159} \operatorname{St}(x \mid \mu, \lambda, \nu)=\frac{\Gamma(\nu / 2+1 / 2)}{\Gamma(\nu / 2)}\left(\frac{\lambda}{\pi \nu}\right)^{1 / 2}\left[1+\frac{\lambda(x-\mu)^{2}}{\nu}\right]^{-\nu / 2-1 / 2}

を参考にすると

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) &= \int_{0}^{\infty} \frac{b_N^{a_N} e^{(-b_N \beta)} \beta^{a_N-1}}{\Gamma(a_N)}\left(\frac{\beta s^{-1}}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\beta s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2}\right\} \mathrm{d} \beta \\ &=\frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \beta^{(a_N + \frac{1}{2})-1} \exp \left\{-\left(b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta \right\} \mathrm{d} \beta \\ \end{aligned}

ここで\displaystyle u = \left(b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\betaと変数変換すると,\displaystyle \mathrm{d}u = \left(b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right) \mathrm{d}\betaと積分範囲に注意すると

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) &= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \beta^{(a_N + \frac{1}{2})-1} \exp \left\{-\left(b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta \right\} \mathrm{d} \beta \\ &= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \left(b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)^{-\left\{(a_N + \frac{1}{2})-1\right\}-1} u^{(a_N + \frac{1}{2})-1} e^{-u} \mathrm{d}u \\ &= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \left[b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - \frac{1}{2}} \Gamma\left(a_N + \frac{1}{2}\right) \\ &= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} b_N^{a_N} \left[b_N + \frac{s^{-1}}{2}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\ &= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} b_N^{a_N} b_N^{-a_N - 1/2} \left[1 + \frac{a_N}{b_N} \frac{s^{-1}}{2a_N}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\ &= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{a_N}{b_N}\frac{s^{-1}}{2 a_N\pi}\right)^{1 / 2} \left[1 + \frac{a_N}{b_N} \frac{s^{-1}}{2a_N}(t-\phi^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\ &= \operatorname{St}(t \mid \mu, \lambda, \nu) \end{aligned}

となることがわかる.ただし

\begin{aligned} \mu &= \phi^{\mathrm{T}} \mathbf{m}_{N} \\ \lambda &= \frac{a_{N}}{b_{N}} s^{-1} \\ \nu &= 2 a_{N} \end{aligned}

である.

演習 3.14

この演習問題では,

k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}\left(\mathbf{x}^{\prime}\right) \tag{3.62}

で定義される等価カーネルのより深い性質を調べよう.ただし,\mathbf{S}_N

\mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \Phi^{\mathrm{T}} \boldsymbol{\Phi} \tag{3.54}

で定義される.基底関数\phi_j(\mathbf{x})は線形独立であると仮定し,データ点の数Nは基底関数の数Mよりも大きいものとする.さらに,基底関数の1つは定数,すなわち\phi_0(\mathbf{x})=1とするこれらの基底関数の適当な線形結合を取り,同じ空間を張る新しい基底関数集合\psi_j(\mathbf{x})を生成することができる.ただし,新しい基底関数は正規直交である.

\sum_{n=1}^{N} \psi_{j}\left(\mathbf{x}_{n}\right) \psi_{k}\left(\mathbf{x}_{n}\right)=I_{j k} \tag{3.115}

I_{jk}j=kのとき1を取り,それ以外は0を取る.また,\psi_0(\mathbf{x})=1と定義する.このとき\alpha=0に対して,等価カーネルがk\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\boldsymbol{\psi}(\mathbf{x})^{\mathrm{T}} \boldsymbol{\psi}\left(\mathbf{x}^{\prime}\right)と書けることを示せ.ただし,\boldsymbol{\psi}=(\psi_0,\ldots,\psi_M)^{\mathrm{T}}である.そしてこの結果を用いて,上記のカーネルが

\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right)=1 \tag{3.116}

を満たすことを示せ.


\alpha = 0より

\mathbf{S}_{N}^{-1}=\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}

また、基底関数の適当な線型結合をとり互いに正規直交な新しい基底関数集合\psi_j(\mathbf{x})

\boldsymbol{\psi(\mathbf{x})}=\mathbf{A}\boldsymbol{\phi(\mathbf{x})}

とおく。また、これを用いて\mathbf{\Psi}

\mathbf{\Psi}=\mathbf{\Phi}\mathbf{A}^{\mathrm{T}} \\ \mathbf{\Psi}(\mathbf{A}^{\mathrm{T}})^{-1} =\mathbf{\Phi}

と定義する。ここで(3.115)を用いると\mathbf{\Phi}^\mathrm{T}\mathbf{\Phi}=\mathbf{I}なので

\begin{aligned} \mathbf{S}_{N}^{-1}&=\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\\ &= \beta\mathbf{A}^{-1}\mathbf{\Psi}^{\mathrm{T}}\mathbf{\Psi}(\mathbf{A}^\mathrm{T})^{-1}\\ &= \beta(\mathbf{A}^\mathrm{T}\mathbf{A})^{-1} \end{aligned}

これを(3.62)に代入すると

\begin{aligned} k\left(\mathbf{x}, \mathbf{x}'\right)&=\boldsymbol{\phi}^\mathrm{T}(\mathbf{x})\mathbf{A}^\mathrm{T}\mathbf{A}\boldsymbol{\phi}(\mathbf{x}') \\ &= \boldsymbol{\psi}^\mathrm{T}(\mathbf{x})\boldsymbol{\psi}(\mathbf{x}') \end{aligned}

が得られる。

また、これを(3.116)に代入すると

\begin{aligned} (3.116) &= \sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_n\right) \\ &= \sum_{n=1}^{N}\boldsymbol{\psi}^\mathrm{T}(\mathbf{x})\boldsymbol{\psi}(\mathbf{x}_n) \\ &= \sum_{n=1}^{N} \sum_{i=0}^{M-1} \psi_i(\mathbf{x})\psi_i(\mathbf{x}_n) \\ &= \sum_{i=0}^{M-1}\psi_i(\mathbf{x})\sum_{n=1}^{N}\psi_i(\mathbf{x}_n) \end{aligned}

ここで、(3.115)k=0のときを考えると\psi_0(\mathbf{x})=1なので

\begin{aligned} \sum_{n=1}^{N}\psi_j(\mathbf{x}_n)\psi_0(\mathbf{x}_n)&=\sum_{n=1}^{N}\psi_j(\mathbf{x}_n) = \mathbf{I}_{j0} \end{aligned}

よって

\begin{aligned} \sum_{i=0}^{M-1}\psi_i(\mathbf{x})\sum_{n=1}^{N}\psi_i(\mathbf{x}_n)=\sum_{i=0}^{M-1}\psi_i(\mathbf{x})\mathbf{I}_{i0}=\psi_0(\mathbf{x}) = 1 \end{aligned}

以上より

\begin{aligned} \sum_{n=1}^{N}k(\mathbf{x},\mathbf{x}_n) = 1 \end{aligned}

を満たすことを示した。

演習 3.15

線形基底関数からなる回帰モデルの超パラメータ\alpha,\ \betaをエビデンスの枠組みを用いて決定する場合を考える.

E\left(\mathbf{m}_{N}\right)=\frac{\beta}{2}\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \tag{3.82}

で定義される関数E(\mathbf{m}_N)が関係式2E(\mathbf{m}_N)=Nを満たすことを示せ.


(3.92)式と(3.95)式を代入するだけで答えが出る

\alpha = \frac{ \gamma }{ \mathbf{m}_{N}^\mathrm{T} \mathbf{m}_{N} } \tag{3.92}
\beta = (N-\gamma) \left\{\sum_{n=1}^{N}\left\{t_n-\mathbf{m}_{N}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right\}^2\right\}^{-1} \tag{3.95}

これらを(3.82)式に代入すると

\begin{aligned} E(\mathbf{m}_N) &= \frac{(N-\gamma)\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}}{2 \sum_{n=1}^{N}\left\{t_n-\mathbf{m}_{N}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right\}^2}+\frac{\gamma \mathbf{m}_{N}^\mathrm{T}\mathbf{m}_{N}}{2\mathbf{m}_{N}^\mathrm{T}\mathbf{m}_{N}} \\ &=\frac{N-\gamma}{2}+\frac{\gamma}{2} \\ &= \frac{N}{2} \end{aligned}

よって2E(\mathbf{m}_N)=Nが示せた。

演習 3.16

p(\mathbf{t} \mid \alpha, \beta)=\int p(\mathbf{t} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w} \tag{3.77}

の積分の評価に

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathbf{T}}\right) \tag{2.115}

を直接用いて,

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

で与えられる線形回帰モデルの対数エビデンス関数p(\mathbf{t}|\alpha, \beta)の結果を導け.


(2.115)式を適用するところまではそこまで難しくないが、- \frac {1}{2} \ln \left | \beta^{-1} \mathbf I_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right |-\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}(3.86)式のように変形するところが非常にテクニカル。付録CのWoodburyの公式(C.7)や行列式についての変形の定理(C.14)を利用する必要がある。

(3.77)式の積分を計算する。p(\mathsf{t}\mid \mathbf{w}, \beta)(3.10)式から、p(\mathbf{w}|\alpha)(3.52)式から与えられる。

(3.52)式よりp(\mathbf{w}\mid \alpha) = \mathcal{N}(\mathbf{w}\mid \mathbf{0},\alpha^{-1}\mathbf{I}_M)である。また、(3.10)式から

\begin{aligned} p(\mathsf{t} \mid \mathbf{w}, \beta) &=\prod_{n=1}^{N} \mathcal{N}\left(t_n \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) \\ &=\prod_{n=1}^{N}\left(\frac{\beta}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta}{2}\left(t_n-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{2}\right\} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2} \sum_{n=1}^{N}\left(t_n-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{2}\right\} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}\left(\mathsf{t}-\mathbf{\Phi}\mathbf{w}\right)^{\mathrm{T}}\left(\mathsf{t}-\mathbf{\Phi}\mathbf{w}\right)\right\} \\ &=\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N) \end{aligned}

となる。注意点として、\mathbf{\Phi}N\times M行列、\mathbf{w}M次元の列ベクトルである。

ここで、問題文のヒントにしたがって

\begin{aligned} \mathbf y \rightarrow \mathbf t, \quad \mathbf x \rightarrow\mathbf w, \quad \boldsymbol \mu\rightarrow\mathbf 0, \quad \mathbf{\Lambda}^{-1}\rightarrow\alpha ^{-1}\mathbf I_M,\quad \mathbf A\rightarrow\mathbf{\Phi} ,\quad \mathbf L^{-1}\rightarrow\beta^{-1} \mathbf I_N \end{aligned}

と置き換えると、(2.115)式を使ってp(\mathsf{t}\mid \alpha, \beta)を求めることができる。これより

p\left(\mathsf{t} \mid \alpha,\beta \right) = \mathcal{N}\left(\mathsf{t}\mid \mathbf{0}, ~ \beta^{-1} \mathbf{I}_N+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T} \right)

と求まる。これについて対数をとって展開していくと((2.43)の対数表現にあてはめて)

\ln p\left( \mathsf{t} \mid \alpha,\beta \right) = -\frac {N}{2} \ln \left ( 2 \pi \right ) - \frac {1}{2} \ln \left | \beta^{-1} \mathbf I_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right | -\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}

となる。この第2項と第3項について計算していく。

まず第2項について

\begin{aligned} \left|\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| &=\beta^{-N} \cdot \beta^{N}\left|\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| \\ &=\beta^{-N}\left|\mathbf{I}_{N}+\beta \alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| \quad\left(\because k^{N}|\mathbf{N}|=|k \mathbf{N}|\right) \\ &=\beta^{-N}\left|\mathbf{I}_{M}+\beta \alpha^{-1} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right| \quad(\because \text {Appendix}\ (\text{C}.14)) \\ &=\beta^{-N} \alpha^{-M}\left|\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right|\quad\left(\because k^M|\mathbf{M}|=|k \mathbf{M}|\right) \\ &=\beta^{-N} \alpha^{-M}|\mathbf{A}|\quad(\because \mathbf{A} = \alpha \mathbf{I}_M+\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}\quad (3.81)) \end{aligned}

が得られる。ここで、以下の定理を用いた。

任意のn\times n行列\mathbf{A}と任意のスカラー値kに対して
|k\mathbf{A}| = k^n|\mathbf{A}|
が成り立つ(統計のための行列代数P.217, 系13.2.4)

また対数を取った時の第3項についてはまず

-\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t} = -\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\mathbf{\Phi}(\alpha ^{-1} \mathbf{I}_M)\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}

としてからWoodburyの公式

\left ( \mathbf A + \mathbf {BD}^{-1} \mathbf C \right ) ^{-1} = \mathbf A^{-1}-\mathbf A^{-1} \mathbf{B} \left ( \mathbf D + \mathbf{CA}^{-1}\mathbf B \right ) ^{-1}\mathbf{CA}^{-1} \tag {C.7}

に当てはめると

\begin{aligned} -\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi} \Phi^{\mathrm{T}}\right)^{-1} \mathsf{t} &=-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left[\beta \mathbf{I}_{N}-\beta\mathbf{I}_{N} \mathbf{\Phi}\left(\alpha \mathbf{I}_{M}+\mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_N)\mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_N)\right] \mathsf{t} \\ &=-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left[\beta \mathbf{I}_{N}-\beta \mathbf{\Phi}\left(\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \beta\right] \mathsf{t} \\ &=-\frac{\beta}{2} \mathsf{t}^{\mathrm{T}} \mathsf{t}+\frac{\beta^{2}}{2} \mathsf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t} \\ &=-\frac{\beta}{2} \mathsf{t}^{\mathrm{T}} \mathsf{t}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N} \quad (\because \mathbf{m}_{N}=\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t}, (\mathbf{A}^{-1})^{\mathrm{T}} = (\mathbf{A}^{\mathrm{T}})^{-1} = \mathbf{A}^{-1}) \\ &=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right) \\ &=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A}\left(\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t}\right)+\mathbf{m}_{N}^{\mathrm{T}}\left(\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right) \mathbf{m}_{N}\right) \\ &=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t} \beta+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\ &=-\frac{1}{2}\left(\beta\left(\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right)^{\mathrm{T}}\left(\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right)+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\ &=-\frac{\beta}{2}\left\|\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}-\frac{1}{2} \alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \\ &=-E(\mathbf{m}_N)\quad(\because\ (3.82)) \end{aligned}

以上から

\ln p \left ( \mathsf{t} \mid \alpha,\beta \right ) =\frac {M}{2} \ln \alpha + \frac {N}{2} \ln \beta - E \left ( \mathbf m_N \right ) -\frac{1}{2} \ln \left | \mathbf A \right | -\frac {N}{2} \ln \left ( 2 \pi \right ) \tag{3.86}

を導出することができた。

演習 3.17

ベイズ線形回帰モデルに対するエビデンス関数が

p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} \tag{3.78}

の形式で書けることを示せ.ただし,

\begin{aligned} E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\ &=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned} \tag{3.79}

で定義される.


※演習問題3.16よりも簡単。

p(\mathsf{t}\mid \alpha, \beta) = \int p(\mathsf{t}\mid \mathbf{w},\beta)p(\mathbf{w}\mid\alpha)d\mathbf{w}\quad (3.77)を求める。演習3.16で示した通り

p(\mathsf{t}\mid \mathbf{w},\beta) = \left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\boldsymbol{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\boldsymbol{\Phi} \mathbf{w})\right\}\\
\begin{aligned} p(\mathbf{w}\mid\alpha) &= \mathcal{N}(\mathbf{w}\mid \mathbf{0}, \alpha^{-1}\mathbf{I}_M) \\ &=\left( \frac{\alpha}{2\pi} \right)^{\frac{M}{2}}\exp \left\{ -\frac{1}{2}\mathbf{w}^{\mathrm{T}}(\alpha^{-1}\mathbf{I}_M)^{-1}\mathbf{w}\right\} \\ &=\left( \frac{\alpha}{2\pi} \right)^{\frac{M}{2}}\exp \left\{ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \end{aligned}

なのでこれらを代入すると

\begin{aligned} p(\mathbf{t} \mid \alpha, \beta)&=\int\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi}\mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi}\mathbf{w}) - \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \mathrm{d} \mathbf{w} \\ &=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2}\int \exp\left\{-\frac{\beta}{2}||\mathsf{t}-\mathbf{\Phi}\mathbf{w}||^{2} - \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \mathrm{d} \mathbf{w} \end{aligned}

となる。これは(3.78),(3.79)の形になっている。

演習 3.18

\mathbf{w}に関して平方完成することにより,

\begin{aligned} E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\ &=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned} \tag{3.79}

で定義されるベイズ線形回帰の誤差関数が

E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}

の形で書けることを示せ.


※誘導に従って平方完成して式変形していくだけ。\mathbf{A} = \alpha \mathbf{I}_M+\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}=(\alpha \mathbf{I}_M+\mathbf{\Phi}^{\mathrm T}(\beta\mathbf{I}_M)\mathbf{\Phi})(3.84)式の定義\mathbf{m}_N=\beta \mathbf{A}^{-1}\mathbf{\Phi}^{\mathrm T}\mathsf{t}を途中で導入する。

\begin{aligned} E(\mathbf{w}) &= \frac{\beta}{2} ||\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\ &=\frac{\beta}{2}\left(\mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}\right)+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\ &=\frac{1}{2}\left(\mathbf{w}^{\mathrm{T}}\mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_M)\mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}}(\alpha \mathbf{I}_M)\mathbf{w}-2\beta\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t} \right) \\ &=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\beta\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}\right) \\ &=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\mathbf{m}_N^{\mathrm T}\mathbf{A}^{\mathrm T}\mathbf{\Phi}^{-1}\mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}\right) \\ &=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\mathbf{m}_N^{\mathrm T}\mathbf{A}^{\mathrm T}\mathbf{w}+\mathbf{m}_N^{\mathrm T}\mathbf{A}\mathbf{m}_N\right) - \frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} \\ &=\frac{1}{2}(\mathbf{w} - \mathbf{m}_N)^{\mathrm T}\mathbf{A}(\mathbf{w} - \mathbf{m}_N)- \frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} \end{aligned}

ここで、\displaystyle -\frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t}については演習問題3.16の後半の式変形と同じなので

\begin{aligned} -\frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} &= \frac{\alpha}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N + \frac{\beta}{2}\left\|\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}\\ &=E(\mathbf{m}_N) \end{aligned}

となるので、結果として(3.80)

E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}

が成立する。

演習 3.19

ベイズ線形回帰モデルの\mathbf{w}に関する積分が

\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2} \tag{3.85}

で与えられることを示せ.したがって,対数周辺尤度が

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

で与えられることを示せ.


(3.85)の積分が成立することを示す。

E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}
E\left(\mathbf{m}_{N}\right)=\frac{\beta}{2}\left\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \tag{3.82}

(3.80)式から(3.85)が成り立つことを示す。(3.82)よりE\left(\mathbf{m}_{N}\right)\mathbf{w}の関数ではないため積分の外に出すことができる。

\begin{aligned} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\} \int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w} \end{aligned}

\mathbf{w}の次元はMであるので、正規化された多次元ガウス分布の形

\frac{1}{(2 \pi)^{M / 2}} \frac{1}{|\mathbf{A}|^{1 / 2}}\int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w} = 1

から正規化係数部分を取り出せば

\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2} \tag{3.85}

(3.85)を示すことができる。

対数周辺尤度は

p(\mathsf{t} | \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} \tag{3.78}

で表すことができ、(3.85)の結果と合わせると、

p(\mathsf{t} | \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2}

この等式に対数を取ってやると、

\ln p(\mathsf{t} | \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

よって対数周辺尤度が(3.86)で与えられることが示された。

演習 3.20

対数周辺尤度関数

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

\alphaに関する最大化が再推定方程式

\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm{T}}\mathbf{m}_N},\quad \gamma = \sum_{i}\frac{\lambda_i}{\alpha+\lambda_i} \tag{3.92}

に帰着されることを示すのに必要なすべての段階を(3.86)から始めて確かめよ.


3.5.2 エビデンス関数の最大化をなぞるだけ。

(3.86)式を\alphaで偏微分する。そのために,まず次の固有ベクトル方程式を考える。

\left(\beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = \lambda_i \mathbf{u}_i \tag{3.87}

また、\alpha \mathbf{I}_Mについての固有値は当然\alphaであり、(\alpha \mathbf{I}_M)\mathbf{u}_i = \alpha \mathbf{u}_iのように書けるので、この2式を足せば

\left(\alpha \mathbf{I}_M + \beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = (\alpha + \lambda_i)\mathbf{u}_i

となるので、\mathbf{A}は固有値\alpha + \lambda_iを持つことがわかる。ここで,(3.86)に含まれる\ln |\mathbf{A}|の項の\alphaに関する導関数を考えると

\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^M \left(\lambda_{i}+\alpha\right)=\frac{d}{d \alpha} \sum_{i=1}^M \ln \left(\lambda_{i}+\alpha\right)=\sum_{i=1}^M \frac{1}{\lambda_{i}+\alpha} \tag{3.88}

が得られる。これより,(3.86)\alphaに関する停留点は

0 = \frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N-\frac{1}{2}\sum_{i=1}^M \frac{1}{\lambda_i+\alpha} \tag{3.89}

を満たす。2\alphaを掛け,式を整理すれば

\alpha\mathbf{m}_N^{\mathrm T}\mathbf{m}_N = M - \alpha \sum_{i=1}^M \frac{1}{\lambda_i + \alpha} = \sum_{i=1}^M \left( 1- \frac{1}{\lambda_i + \alpha} \right) = \sum_{i=1}^M \frac{\lambda_i}{\lambda_i + \alpha} \equiv \gamma

が得られる。よって

\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm T}\mathbf{m}_N} \tag{3.92}

となる。

演習 3.21

(3.92)はエビデンスの枠組みにおける最適な\alphaの値である.この結果は,次の等式を使って導出することもできる.

\frac{d}{d \alpha} \ln |\mathbf{A}|=\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}

実対称行列\mathbf{A}の固有値展開,および\mathbf{A}の行列式とトレースの固有値表現の標準的結果(付録C参照)を用いて,この等式を証明せよ.そして,(3.117)を用いて,(3.86)から(3.92)を導け.


(3.117)を証明する。付録Cも参照。
まず\mathbf{A} = \alpha \mathbf{I}_M + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}であり、\mathbf{A}\mathbf{u}_i = \lambda_i \mathbf{u}_iとなるような固有値\lambda_iと固有ベクトル\mathbf{u}_iが存在する。この2つはそれぞれ\alphaに依存する。

\mathbf{U} = (\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_M)とすると\mathbf{AU} = \mathbf{U\Lambda}と書くことができる。ここで\mathbf{\Lambda}\lambda_iを対角成分とするM\times M対角行列である(付録Cの(C.38))。

実対称行列\mathbf{A}についての\mathbf{U}は正規直交行列となるようにとることができるので(C.29)〜(C.36)、\mathbf{U}^{\mathrm T}\mathbf{U}=\mathbf{I}, よって\mathbf{U}^{\mathrm T} = \mathbf{U}^{-1}となる。これより\mathbf{A} = \mathbf{U\Lambda U}^{-1}が得られ、

|\mathbf{A}| = |\mathbf{U}||\mathbf{\Lambda}||\mathbf{U}^{-1}|=|\mathbf{\Lambda}|=\prod_{i=1}^M \lambda_i

となることが分かる。

一方で

\operatorname{Tr}(\mathbf{A}) = \operatorname{Tr}(\mathbf{U\Lambda U}^{-1}) = \operatorname{Tr}(\mathbf{U}^{-1}\mathbf{U\Lambda}) = \operatorname{Tr}(\mathbf{\Lambda}) = \sum_{i=1}^M \lambda_i

である。

以上から(3.117)の左辺について変形すると

\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^{M} \lambda_{i}=\frac{d}{d \alpha} \sum_{i=1}^{M} \ln \lambda_{i}=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d}{d \alpha} \lambda_{i}

となる。続いて右辺について

\begin{aligned} \operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \frac{d}{d \alpha} \sum_{j=1}^{M} \lambda_{j} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right) \\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\left\{\sum_{j=1}^{M}\left(\frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}+\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right\}\right) \\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \sum_{j=1}^{M} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \left( \sum_{j=1}^{M} \lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right) \right)\\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{2\lambda_{j}}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha} \right) \quad \left(\because \sum_i \alpha_i\sum_j \beta_j = \sum_i \sum_j \alpha_i \beta_j \right)\\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} 2 \mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right) \quad \left( \because \mathbf{u}_i^{\mathrm T}\mathbf{u}_j = \delta_{ij}より, i=jの項だけが残る \right)\\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha}\left(\frac{d \mathbf{u}_{i}}{d \alpha} \mathbf{u}_{i}^{\mathrm T}+\mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right)\right) \\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \sum_{i=1}^{M} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right) \\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \mathbf{I}_{M}\right) \\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha} \end{aligned}

以上の式変形から

\frac{d}{d \alpha} \ln |\mathbf{A}| = \operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}

が示された。

統計のための行列代数第15章 15.8 行列式と逆行列と随伴行列の一次偏導関数(P.365)の話によれば、余因子行列を使って(3.117)式を証明することもできるらしい。

後半の(3.92)の導出は演習問題3.20とほぼ同じなので省略。

演習 3.22

対数周辺尤度関数

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

\betaに関する最大化が再推定方程式

\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}

に帰着されることを示すのにすべての段階を,(3.86)から始めて確かめよ.


※P.168をなぞるだけ

(3.86)\ln p(\mathsf{t}\mid \alpha, \beta)\betaで偏微分する。準備として、\displaystyle \frac{\partial}{\partial \beta}\ln |\mathbf{A}|について、\beta\lambda_iは比例するので\displaystyle \frac{\partial \lambda_i}{\partial \beta} = \frac{\lambda_i}{\beta}より

\frac{d}{d \beta} \ln |\mathbf{A}|=\frac{d}{d \beta} \sum_{i} \ln \left(\lambda_{i}+\alpha\right)=\frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\lambda_{i}+\alpha}=\frac{\gamma}{\beta}

が得られる。したがって, 周辺尤度の停留点は

0=\frac{N}{2 \beta}-\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}-\frac{\gamma}{2 \beta} \tag{3.94}

これを整理すれば

\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}

が得られる。

\mathbf{m}_N\alpha, \betaに依存しているので本当はE(\mathbf{m}_N)\betaで偏微分するともっと複雑な式になるが(\partial \mathbf{m}_N/\partial \betaの項を考える必要が出てくる)、P.168の\alphaのときのように繰り返し法で解くことを想定しているので\mathbf{m}_N\beta依存性は考慮しなくてよいことになっている。

演習 3.23

演習問題3.12で説明したモデルに対するデータの周辺確率(言い換えるとモデルエビデンス)が

p(\mathsf{t})=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \tag{3.118}

で与えられることを示せ.まず最初に\mathbf{w}に関して周辺化し,そして次に\betaに関して周辺化するとよい.


ベイズの定理と周辺確率から

p(t)=\iint p(\mathsf{t}, \mathbf{w}, \beta) d\mathbf{w} d \beta=\iint p(\mathsf{t} \mid \mathbf{w}, \beta) p(\mathbf{w}, \beta) d\mathbf{w} d\beta

と書くことができる。
演習問題3.12でやったように、p(\mathsf{t} \mid \mathbf{w}, \beta)は尤度関数、p(\mathbf{w},\beta)は共役事前分布となる(正規-ガンマ分布)。

p(\mathsf{t} \mid \mathbf{w}, \beta)は演習問題3.16でやったように\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)と表すことができる。よってこれらの式を使うと、

\begin{aligned} p(\mathsf{t}) &=\iint \mathcal{N}\left(\mathsf{t} \mid \mathbf{\Phi} \mathbf{w}, \beta^{-1} \mathbf{I}_{N}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right) d \mathbf{w} d \beta \\ &=\iint\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})\right\}\left(\frac{\beta}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \exp \left\{-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right\}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\ &=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}+ \mathbf{S}_{0}^{-1}\right) \mathbf{w}-2 \mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathsf{t}+ \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \end{aligned}

演習問題3.12で求めた\mathbf{S}_{N}^{-1}=\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{S}_{0}^{-1}, \quad \mathbf{m}_{N}=\mathbf{S}_{N}\left(\mathbf{\Phi}^{\mathrm T} \mathsf{t}+\mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)(※教科書(3.50), (3.51)のものとは異なるので注意)を使ってこれを書き換えると

\begin{aligned} p(\mathsf{t})&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-2 \mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\ &=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\ \end{aligned}

そしてさらに演習問題3.12で求めた\displaystyle a_{N}=a_{0}+\frac{N}{2},\quad b_{N}=b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathsf{t}^{\mathrm{T}} \mathsf{t}\right)を使うと

\begin{aligned} p(\mathsf{t}) &= \underbrace{\frac{\beta^{\frac{M}{2}}}{(2 \pi)^{\frac{M}{2}}|\mathbf{S}_N|^{\frac{1}{2}}} \int \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] d \mathbf{w}}_{\text{Normal distribution, equal to 1}} \cdot \frac{\left|\mathbf{S}_{N}\right|^{\frac{1}{2}} b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \underbrace{\int \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) d \beta}_{\text{Gamma distribution (not normalized)}} \\ &= \frac{b_{0}^{a_{0}}\left|\mathbf{S}_{N}\right|^{\frac{1}{2}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \frac{\Gamma\left(a_{N}\right)}{b_{N}^{a_{N}}} \\ &=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \end{aligned}

以上から(3.118)式となることが示された。

演習 3.24

次の形のベイズの定理に事前,事後分布と尤度関数を代入して上記の(3.118)が成立することを示せ.

p(\mathsf{t})=\frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \tag{3.119}

(3.119)の分母は演習問題3.12の(3.113)p(\mathbf{w}, \beta | \mathbf{t})=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right)で、分子のp(\mathsf{t} | \mathbf{w}, \beta)は演習問題3.16の\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)で、p(\mathbf{w}, \beta)\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right)で、それぞれ与えられる。これらを代入して展開する。まず分母について計算すると

\begin{aligned} p(\mathbf{w}, \beta | \mathbf{t})&=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right) \\ &=\left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w} +\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right) \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) \\ &= \left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}-\mathbf{w}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} - \mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right) \\ &\quad \ \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1} \exp \left(-\left(b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathbf{t}^{\mathrm{T}} \mathbf{t}\right)\right) \beta\right) \\ &=\left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)+\|\mathbf{t}-\Phi \mathbf{w}\|^{2}\right)\right) \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1} \exp \left(-b_{0} \beta\right) \end{aligned}

一方で分子は

\begin{aligned} p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta) &= \left(\frac{\beta}{2 \pi}\right)^{N / 2} \exp \left(-\frac{\beta}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^{2}\right) \left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{0}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right) \\ &\quad\ \Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right) \end{aligned}

よってこれらを用いて約分すると

\begin{aligned} p(\mathsf{t}) &= \frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \\ &= \frac{\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left|\mathbf{S}_{0}\right|^{-1 / 2}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1}}{\left|\mathbf{S}_{N}\right|^{-1 / 2}\Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1}} \\ &= \frac{1}{(2\pi)^{N/2}}\frac{\left|\mathbf{S}_{0}\right|^{-1 / 2}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}}}{\left|\mathbf{S}_{N}\right|^{-1 / 2}\Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}}} \\ &=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \end{aligned}

となり、(3.118)式が得られることが確認された。

Discussion

ログインするとコメントできます