🧠

PRML 第3章（3.13から3.24まで）解答例

2022/06/05に公開

9件

PRML

idea

はじめに

PRML解答例まとめを参照

演習 3.13

演習問題3.12で議論したモデルに対する予測分布 $p(t|\mathbf{x},\mathsf{t})$ が次の形のスチューデントのt分布

p(t | \mathbf{x}, \mathsf{t})=\operatorname{St}(t | \mu, \lambda, \nu) \tag{3.114}

で与えられることを示し， $\mu, \lambda, \nu$ についての式を求めよ．

(2022年11月25日修正; コメントありがとうございました)

p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right) \tag{3.8}

p(\mathbf{w}, \beta \mid \mathsf{t}, \mathbf{X}) = \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \tag{3.113}

と $3.3.2$ 節の議論より，予測分布は

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{X}, \mathsf{t}) &= \iint p(t \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w}, \beta \mid \mathsf{t}, \mathbf{X}) \mathrm{d}\mathbf{w} \mathrm{d}\beta \\ &= \iint \mathcal{N}\left(t \mid \phi(\mathbf{x})^{\mathrm{T}} \mathbf{w}, \beta^{-1}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \mathrm{d} \beta \end{aligned}

となる．

ここで， $\mathbf{w}$ についての積分は線形ガウスモデルなので，公式

p(\mathbf{x})=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right) \tag{2.113}

p(\mathbf{y} \mid \mathbf{x})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right) \tag{2.114}

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathbf{T}}\right) \tag{2.115}

を用いる．

\tag{3.49} p(\mathbf{w} \mid \mathbf{t})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right)

を $(2.113)$ に，

\tag{3.8} p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right)

\tag{3.3} y(\mathbf{x}, \mathbf{w})=\sum_{j=0}^{M-1} w_{j} \phi_{j}(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})

を $(2.114)$ に適用するために

\begin{aligned} \mathbf{x} \Rightarrow \mathbf{w} \quad \boldsymbol{\mu} \Rightarrow \mathbf{m}_{N} \quad \mathbf{\Lambda}^{-1} \Rightarrow \beta^{-1}\mathbf{S}_{N} \quad \mathbf{y} \Rightarrow t \quad \mathbf{A} \Rightarrow \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}}=\boldsymbol{\phi}^{\mathrm{T}} \quad \mathbf{b} \Rightarrow \mathbf{0} \quad \mathbf{L}^{-1} \Rightarrow \beta^{-1} \end{aligned}

と置き換えると， $(2.115)$ より

\begin{aligned} p(t \mid \beta) &=\mathcal{N}\left(t \mid \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1}+\boldsymbol{\phi}^{\mathrm{T}} (\beta^{-1}\mathbf{S}_{N}) \boldsymbol{\phi}\right) \\ &=\mathcal{N}\left(t \mid \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1}\left(1+\boldsymbol{\phi}^{\mathrm{T}}\left(\mathbf{S}_{0}^{-1}+\boldsymbol{\phi}^{\mathrm{T}} \boldsymbol{\phi}\right)^{-1} \boldsymbol{\phi}\right)\right) \end{aligned}

となる．ただし，演習問題 $3.12$ より， $\beta \mathbf{S}_{N}^{-1} = \beta\left[ \mathbf{S}_0^{-1} + \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \right]$ を用いた．

したがって予測分布は

p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) = \int \mathcal{N}\left(t \mid \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1} s\right) \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \mathrm{d} \beta

と変形できる．ただし

s=1+\boldsymbol{\phi}^{\mathrm{T}}\left(\mathbf{S}_{0}^{-1}+\boldsymbol{\phi}^{\mathrm{T}} \boldsymbol{\phi}\right)^{-1} \boldsymbol{\phi}

とおいた．ここで，スチューデントのt分布の式

\tag{2.158} \begin{aligned} p(x \mid \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x \mid \mu, \tau^{-1}\right) \operatorname{Gam}(\tau \mid a, b) \mathrm{d} \tau \\ &=\int_{0}^{\infty} \frac{b^{a} e^{(-b \tau)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ &=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{1 / 2}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-1 / 2} \Gamma(a+1 / 2) \end{aligned}

\tag{2.159} \operatorname{St}(x \mid \mu, \lambda, \nu)=\frac{\Gamma(\nu / 2+1 / 2)}{\Gamma(\nu / 2)}\left(\frac{\lambda}{\pi \nu}\right)^{1 / 2}\left[1+\frac{\lambda(x-\mu)^{2}}{\nu}\right]^{-\nu / 2-1 / 2}

を参考にすると

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) &= \int_{0}^{\infty} \frac{b_N^{a_N} e^{(-b_N \beta)} \beta^{a_N-1}}{\Gamma(a_N)}\left(\frac{\beta s^{-1}}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\beta s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2}\right\} \mathrm{d} \beta \\ &=\frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \beta^{(a_N + \frac{1}{2})-1} \exp \left\{-\left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta \right\} \mathrm{d} \beta \\ \end{aligned}

ここで $\displaystyle u = \left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta$ と変数変換して $\displaystyle \mathrm{d}u = \left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right) \mathrm{d}\beta$ と積分範囲に注意すると

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) &= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \beta^{(a_N + \frac{1}{2})-1} \exp \left\{-\left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta \right\} \mathrm{d} \beta \\ &= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)^{-\left\{(a_N + \frac{1}{2})-1\right\}-1} u^{(a_N + \frac{1}{2})-1} e^{-u} \mathrm{d}u \\ &= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \left[b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - \frac{1}{2}} \Gamma\left(a_N + \frac{1}{2}\right) \\ &= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} b_N^{a_N} \left[b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\ &= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} b_N^{a_N} b_N^{-a_N - 1/2} \left[1 + \frac{a_N}{b_N} \frac{s^{-1}}{2a_N}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\ &= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{a_N}{b_N}\frac{s^{-1}}{2 a_N\pi}\right)^{1 / 2} \left[1 + \frac{a_N}{b_N} \frac{s^{-1}}{2a_N}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\ &= \operatorname{St}(t \mid \mu, \lambda, \nu) \end{aligned}

となることがわかる．ただし

\begin{aligned} \mu &= \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N} \\ \lambda &= \frac{a_{N}}{b_{N}} s^{-1} \\ \nu &= 2 a_{N} \end{aligned}

である．

演習 3.14

この演習問題では，

k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}\left(\mathbf{x}^{\prime}\right) \tag{3.62}

で定義される等価カーネルのより深い性質を調べよう．ただし， $\mathbf{S}_N$ は

\mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \Phi^{\mathrm{T}} \boldsymbol{\Phi} \tag{3.54}

で定義される．基底関数 $\phi_j(\mathbf{x})$ は線形独立であると仮定し，データ点の数 $N$ は基底関数の数 $M$ よりも大きいものとする．さらに，基底関数の1つは定数，すなわち $\phi_0(\mathbf{x})=1$ とするこれらの基底関数の適当な線形結合を取り，同じ空間を張る新しい基底関数集合 $\psi_j(\mathbf{x})$ を生成することができる．ただし，新しい基底関数は正規直交である．

\sum_{n=1}^{N} \psi_{j}\left(\mathbf{x}_{n}\right) \psi_{k}\left(\mathbf{x}_{n}\right)=I_{j k} \tag{3.115}

$I_{jk}$ は $j=k$ のとき $1$ を取り，それ以外は $0$ を取る．また， $\psi_0(\mathbf{x})=1$ と定義する．このとき $\alpha=0$ に対して，等価カーネルが $k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\boldsymbol{\psi}(\mathbf{x})^{\mathrm{T}} \boldsymbol{\psi}\left(\mathbf{x}^{\prime}\right)$ と書けることを示せ．ただし， $\boldsymbol{\psi}=(\psi_0,\ldots,\psi_M)^{\mathrm{T}}$ である．そしてこの結果を用いて，上記のカーネルが

\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right)=1 \tag{3.116}

を満たすことを示せ．

$\alpha = 0$ より

\mathbf{S}_{N}^{-1}=\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}

また、基底関数の適当な線型結合をとり互いに正規直交な新しい基底関数集合 $\psi_j(\mathbf{x})$ を

\boldsymbol{\psi(\mathbf{x})}=\mathbf{A}\boldsymbol{\phi(\mathbf{x})}

とおく。また、これを用いて $\mathbf{\Psi}$ を

\mathbf{\Psi}=\mathbf{\Phi}\mathbf{A}^{\mathrm{T}} \\ \mathbf{\Psi}(\mathbf{A}^{\mathrm{T}})^{-1} =\mathbf{\Phi}

と定義する。ここで $(3.115)$ を用いると $\mathbf{\Psi}^\mathrm{T}\mathbf{\Psi}=\mathbf{I}$ なので

\begin{aligned} \mathbf{S}_{N}^{-1}&=\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\\ &= \beta\mathbf{A}^{-1}\mathbf{\Psi}^{\mathrm{T}}\mathbf{\Psi}(\mathbf{A}^\mathrm{T})^{-1}\\ &= \beta(\mathbf{A}^\mathrm{T}\mathbf{A})^{-1} \end{aligned}

これを $(3.62)$ に代入すると

\begin{aligned} k\left(\mathbf{x}, \mathbf{x}'\right)&=\boldsymbol{\phi}^\mathrm{T}(\mathbf{x})\mathbf{A}^\mathrm{T}\mathbf{A}\boldsymbol{\phi}(\mathbf{x}') \\ &= \boldsymbol{\psi}^\mathrm{T}(\mathbf{x})\boldsymbol{\psi}(\mathbf{x}') \end{aligned}

が得られる。

また、これを $(3.116)$ に代入すると

\begin{aligned} (3.116) &= \sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_n\right) \\ &= \sum_{n=1}^{N}\boldsymbol{\psi}^\mathrm{T}(\mathbf{x})\boldsymbol{\psi}(\mathbf{x}_n) \\ &= \sum_{n=1}^{N} \sum_{i=0}^{M-1} \psi_i(\mathbf{x})\psi_i(\mathbf{x}_n) \\ &= \sum_{i=0}^{M-1}\psi_i(\mathbf{x})\sum_{n=1}^{N}\psi_i(\mathbf{x}_n) \end{aligned}

ここで、 $(3.115)$ の $k=0$ のときを考えると $\psi_0(\mathbf{x})=1$ なので

\begin{aligned} \sum_{n=1}^{N}\psi_j(\mathbf{x}_n)\psi_0(\mathbf{x}_n)&=\sum_{n=1}^{N}\psi_j(\mathbf{x}_n) = \mathbf{I}_{j0} \end{aligned}

よって

\begin{aligned} \sum_{i=0}^{M-1}\psi_i(\mathbf{x})\sum_{n=1}^{N}\psi_i(\mathbf{x}_n)=\sum_{i=0}^{M-1}\psi_i(\mathbf{x})\mathbf{I}_{i0}=\psi_0(\mathbf{x}) = 1 \end{aligned}

以上より

\begin{aligned} \sum_{n=1}^{N}k(\mathbf{x},\mathbf{x}_n) = 1 \end{aligned}

を満たすことを示した。

演習 3.15

線形基底関数からなる回帰モデルの超パラメータ $\alpha,\ \beta$ をエビデンスの枠組みを用いて決定する場合を考える．

E\left(\mathbf{m}_{N}\right)=\frac{\beta}{2}\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \tag{3.82}

で定義される関数 $E(\mathbf{m}_N)$ が関係式 $2E(\mathbf{m}_N)=N$ を満たすことを示せ．

$(3.92)$ 式と $(3.95)$ 式を代入するだけで答えが出る

\alpha = \frac{ \gamma }{ \mathbf{m}_{N}^\mathrm{T} \mathbf{m}_{N} } \tag{3.92}

\beta = (N-\gamma) \left\{\sum_{n=1}^{N}\left\{t_n-\mathbf{m}_{N}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right\}^2\right\}^{-1} \tag{3.95}

これらを $(3.82)$ 式に代入すると

\begin{aligned} E(\mathbf{m}_N) &= \frac{(N-\gamma)\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}}{2 \sum_{n=1}^{N}\left\{t_n-\mathbf{m}_{N}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right\}^2}+\frac{\gamma \mathbf{m}_{N}^\mathrm{T}\mathbf{m}_{N}}{2\mathbf{m}_{N}^\mathrm{T}\mathbf{m}_{N}} \\ &=\frac{N-\gamma}{2}+\frac{\gamma}{2} \\ &= \frac{N}{2} \end{aligned}

よって $2E(\mathbf{m}_N)=N$ が示せた。

演習 3.16

p(\mathbf{t} \mid \alpha, \beta)=\int p(\mathbf{t} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w} \tag{3.77}

の積分の評価に

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathbf{T}}\right) \tag{2.115}

を直接用いて，

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

で与えられる線形回帰モデルの対数エビデンス関数 $p(\mathbf{t}|\alpha, \beta)$ の結果を導け．

※ $(2.115)$ 式を適用するところまではそこまで難しくないが、 $- \frac {1}{2} \ln \left | \beta^{-1} \mathbf I_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right |$ と $-\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}$ を $(3.86)$ 式のように変形するところが非常にテクニカル。付録CのWoodburyの公式(C.7)や行列式についての変形の定理(C.14)を利用する必要がある。

$(3.77)$ 式の積分を計算する。 $p(\mathsf{t}\mid \mathbf{w}, \beta)$ は $(3.10)$ 式から、 $p(\mathbf{w}|\alpha)$ は $(3.52)$ 式から与えられる。

$(3.52)$ 式より $p(\mathbf{w}\mid \alpha) = \mathcal{N}(\mathbf{w}\mid \mathbf{0},\alpha^{-1}\mathbf{I}_M)$ である。また、 $(3.10)$ 式から

\begin{aligned} p(\mathsf{t} \mid \mathbf{w}, \beta) &=\prod_{n=1}^{N} \mathcal{N}\left(t_n \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) \\ &=\prod_{n=1}^{N}\left(\frac{\beta}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta}{2}\left(t_n-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{2}\right\} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2} \sum_{n=1}^{N}\left(t_n-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{2}\right\} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}\left(\mathsf{t}-\mathbf{\Phi}\mathbf{w}\right)^{\mathrm{T}}\left(\mathsf{t}-\mathbf{\Phi}\mathbf{w}\right)\right\} \\ &=\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N) \end{aligned}

となる。注意点として、 $\mathbf{\Phi}$ は $N\times M$ 行列、 $\mathbf{w}$ は $M$ 次元の列ベクトルである。

ここで、問題文のヒントにしたがって

\begin{aligned} \mathbf y \rightarrow \mathbf t, \quad \mathbf x \rightarrow\mathbf w, \quad \boldsymbol \mu\rightarrow\mathbf 0, \quad \mathbf{\Lambda}^{-1}\rightarrow\alpha ^{-1}\mathbf I_M,\quad \mathbf A\rightarrow\mathbf{\Phi} ,\quad \mathbf L^{-1}\rightarrow\beta^{-1} \mathbf I_N \end{aligned}

と置き換えると、 $(2.115)$ 式を使って $p(\mathsf{t}\mid \alpha, \beta)$ を求めることができる。これより

p\left(\mathsf{t} \mid \alpha,\beta \right) = \mathcal{N}\left(\mathsf{t}\mid \mathbf{0}, ~ \beta^{-1} \mathbf{I}_N+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T} \right)

と求まる。これについて対数をとって展開していくと（ $(2.43)$ の対数表現にあてはめて）

\ln p\left( \mathsf{t} \mid \alpha,\beta \right) = -\frac {N}{2} \ln \left ( 2 \pi \right ) - \frac {1}{2} \ln \left | \beta^{-1} \mathbf I_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right | -\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}

となる。この第2項と第3項について計算していく。

まず第2項について

\begin{aligned} \left|\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| &=\beta^{-N} \cdot \beta^{N}\left|\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| \\ &=\beta^{-N}\left|\mathbf{I}_{N}+\beta \alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| \quad\left(\because k^{N}|\mathbf{N}|=|k \mathbf{N}|\right) \\ &=\beta^{-N}\left|\mathbf{I}_{M}+\beta \alpha^{-1} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right| \quad(\because \text {Appendix}\ (\text{C}.14)) \\ &=\beta^{-N} \alpha^{-M}\left|\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right|\quad\left(\because k^M|\mathbf{M}|=|k \mathbf{M}|\right) \\ &=\beta^{-N} \alpha^{-M}|\mathbf{A}|\quad(\because \mathbf{A} = \alpha \mathbf{I}_M+\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}\quad (3.81)) \end{aligned}

が得られる。ここで、以下の定理を用いた。

任意の $n\times n$ 行列 $\mathbf{A}$ と任意のスカラー値 $k$ に対して
$|k\mathbf{A}| = k^n|\mathbf{A}|$
が成り立つ（統計のための行列代数P.217, 系13.2.4）

また対数を取った時の第3項についてはまず

-\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t} = -\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\mathbf{\Phi}(\alpha ^{-1} \mathbf{I}_M)\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}

としてからWoodburyの公式

\left ( \mathbf A + \mathbf {BD}^{-1} \mathbf C \right ) ^{-1} = \mathbf A^{-1}-\mathbf A^{-1} \mathbf{B} \left ( \mathbf D + \mathbf{CA}^{-1}\mathbf B \right ) ^{-1}\mathbf{CA}^{-1} \tag {C.7}

に当てはめると

\begin{aligned} -\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi} \Phi^{\mathrm{T}}\right)^{-1} \mathsf{t} &=-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left[\beta \mathbf{I}_{N}-\beta\mathbf{I}_{N} \mathbf{\Phi}\left(\alpha \mathbf{I}_{M}+\mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_N)\mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_N)\right] \mathsf{t} \\ &=-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left[\beta \mathbf{I}_{N}-\beta \mathbf{\Phi}\left(\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \beta\right] \mathsf{t} \\ &=-\frac{\beta}{2} \mathsf{t}^{\mathrm{T}} \mathsf{t}+\frac{\beta^{2}}{2} \mathsf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t} \\ &=-\frac{\beta}{2} \mathsf{t}^{\mathrm{T}} \mathsf{t}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N} \quad (\because \mathbf{m}_{N}=\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t}, (\mathbf{A}^{-1})^{\mathrm{T}} = (\mathbf{A}^{\mathrm{T}})^{-1} = \mathbf{A}^{-1}) \\ &=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right) \\ &=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A}\left(\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t}\right)+\mathbf{m}_{N}^{\mathrm{T}}\left(\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right) \mathbf{m}_{N}\right) \\ &=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t} \beta+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\ &=-\frac{1}{2}\left(\beta\left(\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right)^{\mathrm{T}}\left(\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right)+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\ &=-\frac{\beta}{2}\left\|\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}-\frac{1}{2} \alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \\ &=-E(\mathbf{m}_N)\quad(\because\ (3.82)) \end{aligned}

以上から

\ln p \left ( \mathsf{t} \mid \alpha,\beta \right ) =\frac {M}{2} \ln \alpha + \frac {N}{2} \ln \beta - E \left ( \mathbf m_N \right ) -\frac{1}{2} \ln \left | \mathbf A \right | -\frac {N}{2} \ln \left ( 2 \pi \right ) \tag{3.86}

を導出することができた。

演習 3.17

ベイズ線形回帰モデルに対するエビデンス関数が

p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} \tag{3.78}

の形式で書けることを示せ．ただし，

\begin{aligned} E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\ &=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned} \tag{3.79}

で定義される．

※演習問題3.16よりも簡単。

$p(\mathsf{t}\mid \alpha, \beta) = \int p(\mathsf{t}\mid \mathbf{w},\beta)p(\mathbf{w}\mid\alpha)d\mathbf{w}\quad (3.77)$ を求める。演習3.16で示した通り

p(\mathsf{t}\mid \mathbf{w},\beta) = \left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\boldsymbol{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\boldsymbol{\Phi} \mathbf{w})\right\}\\

\begin{aligned} p(\mathbf{w}\mid\alpha) &= \mathcal{N}(\mathbf{w}\mid \mathbf{0}, \alpha^{-1}\mathbf{I}_M) \\ &=\left( \frac{\alpha}{2\pi} \right)^{\frac{M}{2}}\exp \left\{ -\frac{1}{2}\mathbf{w}^{\mathrm{T}}(\alpha^{-1}\mathbf{I}_M)^{-1}\mathbf{w}\right\} \\ &=\left( \frac{\alpha}{2\pi} \right)^{\frac{M}{2}}\exp \left\{ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \end{aligned}

なのでこれらを代入すると

\begin{aligned} p(\mathbf{t} \mid \alpha, \beta)&=\int\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi}\mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi}\mathbf{w}) - \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \mathrm{d} \mathbf{w} \\ &=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2}\int \exp\left\{-\frac{\beta}{2}||\mathsf{t}-\mathbf{\Phi}\mathbf{w}||^{2} - \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \mathrm{d} \mathbf{w} \end{aligned}

となる。これは $(3.78)$ , $(3.79)$ の形になっている。

演習 3.18

$\mathbf{w}$ に関して平方完成することにより，

\begin{aligned} E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\ &=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \end{aligned} \tag{3.79}

で定義されるベイズ線形回帰の誤差関数が

E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}

の形で書けることを示せ．

※誘導に従って平方完成して式変形していくだけ。 $\mathbf{A} = \alpha \mathbf{I}_M+\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}=(\alpha \mathbf{I}_M+\mathbf{\Phi}^{\mathrm T}(\beta\mathbf{I}_M)\mathbf{\Phi})$ と $(3.84)$ 式の定義 $\mathbf{m}_N=\beta \mathbf{A}^{-1}\mathbf{\Phi}^{\mathrm T}\mathsf{t}$ を途中で導入する。

\begin{aligned} E(\mathbf{w}) &= \frac{\beta}{2} ||\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\ &=\frac{\beta}{2}\left(\mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}\right)+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\ &=\frac{1}{2}\left(\mathbf{w}^{\mathrm{T}}\mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_M)\mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}}(\alpha \mathbf{I}_M)\mathbf{w}-2\beta\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t} \right) \\ &=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\beta\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}\right) \\ &=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\mathbf{m}_N^{\mathrm T}\mathbf{A}^{\mathrm T}\mathbf{\Phi}^{-1}\mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}\right) \\ &=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\mathbf{m}_N^{\mathrm T}\mathbf{A}^{\mathrm T}\mathbf{w}+\mathbf{m}_N^{\mathrm T}\mathbf{A}\mathbf{m}_N\right) - \frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} \\ &=\frac{1}{2}(\mathbf{w} - \mathbf{m}_N)^{\mathrm T}\mathbf{A}(\mathbf{w} - \mathbf{m}_N)- \frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} \end{aligned}

ここで、 $\displaystyle -\frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t}$ については演習問題3.16の後半の式変形と同じなので

\begin{aligned} -\frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} &= \frac{\alpha}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N + \frac{\beta}{2}\left\|\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}\\ &=E(\mathbf{m}_N) \end{aligned}

となるので、結果として $(3.80)$ 式

E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}

が成立する。

演習 3.19

ベイズ線形回帰モデルの $\mathbf{w}$ に関する積分が

\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2} \tag{3.85}

で与えられることを示せ．したがって，対数周辺尤度が

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

で与えられることを示せ．

$(3.85)$ の積分が成立することを示す。

E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}

E\left(\mathbf{m}_{N}\right)=\frac{\beta}{2}\left\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \tag{3.82}

$(3.80)$ 式から $(3.85)$ が成り立つことを示す。 $(3.82)$ より $E\left(\mathbf{m}_{N}\right)$ は $\mathbf{w}$ の関数ではないため積分の外に出すことができる。

\begin{aligned} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\} \int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w} \end{aligned}

今 $\mathbf{w}$ の次元は $M$ であるので、正規化された多次元ガウス分布の形

\frac{1}{(2 \pi)^{M / 2}} \frac{1}{|\mathbf{A}|^{-1 / 2}}\int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w} = 1

から正規化係数部分を取り出せば

\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2} \tag{3.85}

$(3.85)$ を示すことができる。

対数周辺尤度は

p(\mathsf{t} | \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} \tag{3.78}

で表すことができ、 $(3.85)$ の結果と合わせると、

p(\mathsf{t} | \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2}

この等式に対数を取ってやると、

\ln p(\mathsf{t} | \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

よって対数周辺尤度が $(3.86)$ で与えられることが示された。

演習 3.20

対数周辺尤度関数

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

の $\alpha$ に関する最大化が再推定方程式

\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm{T}}\mathbf{m}_N},\quad \gamma = \sum_{i}\frac{\lambda_i}{\alpha+\lambda_i} \tag{3.92}

に帰着されることを示すのに必要なすべての段階を $(3.86)$ から始めて確かめよ．

※3.5.2 エビデンス関数の最大化をなぞるだけ。

$(3.86)$ 式を $\alpha$ で偏微分する。そのために，まず次の固有ベクトル方程式を考える。

\left(\beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = \lambda_i \mathbf{u}_i \tag{3.87}

また、 $\alpha \mathbf{I}_M$ についての固有値は当然 $\alpha$ であり、 $(\alpha \mathbf{I}_M)\mathbf{u}_i = \alpha \mathbf{u}_i$ のように書けるので、この2式を足せば

\left(\alpha \mathbf{I}_M + \beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = (\alpha + \lambda_i)\mathbf{u}_i

となるので、 $\mathbf{A}$ は固有値 $\alpha + \lambda_i$ を持つことがわかる。ここで， $(3.86)$ に含まれる $\ln |\mathbf{A}|$ の項の $\alpha$ に関する導関数を考えると

\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^M \left(\lambda_{i}+\alpha\right)=\frac{d}{d \alpha} \sum_{i=1}^M \ln \left(\lambda_{i}+\alpha\right)=\sum_{i=1}^M \frac{1}{\lambda_{i}+\alpha} \tag{3.88}

が得られる。これより， $(3.86)$ の $\alpha$ に関する停留点は

0 = \frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N-\frac{1}{2}\sum_{i=1}^M \frac{1}{\lambda_i+\alpha} \tag{3.89}

を満たす。 $2\alpha$ を掛け，式を整理すれば

\alpha\mathbf{m}_N^{\mathrm T}\mathbf{m}_N = M - \alpha \sum_{i=1}^M \frac{1}{\lambda_i + \alpha} = \sum_{i=1}^M \left( 1- \frac{1}{\lambda_i + \alpha} \right) = \sum_{i=1}^M \frac{\lambda_i}{\lambda_i + \alpha} \equiv \gamma

が得られる。よって

\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm T}\mathbf{m}_N} \tag{3.92}

となる。

演習 3.21

$(3.92)$ はエビデンスの枠組みにおける最適な $\alpha$ の値である．この結果は，次の等式を使って導出することもできる．

\frac{d}{d \alpha} \ln |\mathbf{A}|=\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}

実対称行列 $\mathbf{A}$ の固有値展開，および $\mathbf{A}$ の行列式とトレースの固有値表現の標準的結果（付録C参照）を用いて，この等式を証明せよ．そして， $(3.117)$ を用いて， $(3.86)$ から $(3.92)$ を導け．

※ $(3.117)$ を証明する。付録Cも参照。
まず $\mathbf{A} = \alpha \mathbf{I}_M + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}$ であり、 $\mathbf{A}\mathbf{u}_i = \lambda_i \mathbf{u}_i$ となるような固有値 $\lambda_i$ と固有ベクトル $\mathbf{u}_i$ が存在する。この2つはそれぞれ $\alpha$ に依存する。

$\mathbf{U} = (\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_M)$ とすると $\mathbf{AU} = \mathbf{U\Lambda}$ と書くことができる。ここで $\mathbf{\Lambda}$ は $\lambda_i$ を対角成分とする $M\times M$ 対角行列である（付録Cの(C.38)）。

実対称行列 $\mathbf{A}$ についての $\mathbf{U}$ は正規直交行列となるようにとることができるので(C.29)〜(C.36)、 $\mathbf{U}^{\mathrm T}\mathbf{U}=\mathbf{I}$ , よって $\mathbf{U}^{\mathrm T} = \mathbf{U}^{-1}$ となる。これより $\mathbf{A} = \mathbf{U\Lambda U}^{-1}$ が得られ、

|\mathbf{A}| = |\mathbf{U}||\mathbf{\Lambda}||\mathbf{U}^{-1}|=|\mathbf{\Lambda}|=\prod_{i=1}^M \lambda_i

となることが分かる。

一方で

\operatorname{Tr}(\mathbf{A}) = \operatorname{Tr}(\mathbf{U\Lambda U}^{-1}) = \operatorname{Tr}(\mathbf{U}^{-1}\mathbf{U\Lambda}) = \operatorname{Tr}(\mathbf{\Lambda}) = \sum_{i=1}^M \lambda_i

である。

以上から $(3.117)$ の左辺について変形すると

\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^{M} \lambda_{i}=\frac{d}{d \alpha} \sum_{i=1}^{M} \ln \lambda_{i}=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d}{d \alpha} \lambda_{i}

となる。続いて右辺について

\begin{aligned} \operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \frac{d}{d \alpha} \sum_{j=1}^{M} \lambda_{j} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right) \\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\left\{\sum_{j=1}^{M}\left(\frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}+\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right\}\right) \\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \sum_{j=1}^{M} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \left( \sum_{j=1}^{M} \left(\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right) \right)\\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{2\lambda_{j}}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha} \right) \quad \left(\because \sum_i \alpha_i\sum_j \beta_j = \sum_i \sum_j \alpha_i \beta_j \right)\\ &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} 2 \mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right) \quad \left( \because \mathbf{u}_i^{\mathrm T}\mathbf{u}_j = \delta_{ij}より, i=jの項だけが残る \right)\\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\sum_{i=1}^{M}\left(\frac{d \mathbf{u}_{i}}{d \alpha} \mathbf{u}_{i}^{\mathrm T}+\mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right)\right) \\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \sum_{i=1}^{M} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right) \\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \mathbf{I}_{M}\right) \\ &=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha} \end{aligned}

以上の式変形から

\frac{d}{d \alpha} \ln |\mathbf{A}| = \operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}

が示された。

後半の $(3.92)$ の導出は演習問題3.20とほぼ同じなので省略。

演習 3.22

対数周辺尤度関数

\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}

の $\beta$ に関する最大化が再推定方程式

\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}

に帰着されることを示すのにすべての段階を， $(3.86)$ から始めて確かめよ．

※P.168をなぞるだけ

$(3.86)$ の $\ln p(\mathsf{t}\mid \alpha, \beta)$ を $\beta$ で偏微分する。準備として、 $\displaystyle \frac{\partial}{\partial \beta}\ln |\mathbf{A}|$ について、 $\beta$ と $\lambda_i$ は比例するので $\displaystyle \frac{\partial \lambda_i}{\partial \beta} = \frac{\lambda_i}{\beta}$ より

\frac{d}{d \beta} \ln |\mathbf{A}|=\frac{d}{d \beta} \sum_{i} \ln \left(\lambda_{i}+\alpha\right)=\frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\lambda_{i}+\alpha}=\frac{\gamma}{\beta}

が得られる。したがって, 周辺尤度の停留点は

0=\frac{N}{2 \beta}-\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}-\frac{\gamma}{2 \beta} \tag{3.94}

これを整理すれば

\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}

が得られる。

$\mathbf{m}_N$ は $\alpha, \beta$ に依存しているので本当は $E(\mathbf{m}_N)$ も $\beta$ で偏微分するともっと複雑な式になるが（ $\partial \mathbf{m}_N/\partial \beta$ の項を考える必要が出てくる）、P.168の $\alpha$ のときのように繰り返し法で解くことを想定しているので $\mathbf{m}_N$ の $\beta$ 依存性は考慮しなくてよいことになっている。

演習 3.23

演習問題3.12で説明したモデルに対するデータの周辺確率（言い換えるとモデルエビデンス）が

p(\mathsf{t})=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \tag{3.118}

で与えられることを示せ．まず最初に $\mathbf{w}$ に関して周辺化し，そして次に $\beta$ に関して周辺化するとよい．

ベイズの定理と周辺確率から

p(t)=\iint p(\mathsf{t}, \mathbf{w}, \beta) d\mathbf{w} d \beta=\iint p(\mathsf{t} \mid \mathbf{w}, \beta) p(\mathbf{w}, \beta) d\mathbf{w} d\beta

と書くことができる。
演習問題3.12でやったように、 $p(\mathsf{t} \mid \mathbf{w}, \beta)$ は尤度関数、 $p(\mathbf{w},\beta)$ は共役事前分布となる（正規-ガンマ分布）。

$p(\mathsf{t} \mid \mathbf{w}, \beta)$ は演習問題3.16でやったように $\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)$ と表すことができる。よってこれらの式を使うと、

\begin{aligned} p(\mathsf{t}) &=\iint \mathcal{N}\left(\mathsf{t} \mid \mathbf{\Phi} \mathbf{w}, \beta^{-1} \mathbf{I}_{N}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right) d \mathbf{w} d \beta \\ &=\iint\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})\right\}\left(\frac{\beta}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \exp \left\{-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right\}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\ &=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}+ \mathbf{S}_{0}^{-1}\right) \mathbf{w}-2 \mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathsf{t}+ \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \end{aligned}

演習問題3.12で求めた $\mathbf{S}_{N}^{-1}=\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{S}_{0}^{-1}, \quad \mathbf{m}_{N}=\mathbf{S}_{N}\left(\mathbf{\Phi}^{\mathrm T} \mathsf{t}+\mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)$ （※教科書 $(3.50), (3.51)$ のものとは異なるので注意）を使ってこれを書き換えると

\begin{aligned} p(\mathsf{t})&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-2 \mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\ &=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\ \end{aligned}

そしてさらに演習問題3.12で求めた $\displaystyle a_{N}=a_{0}+\frac{N}{2},\quad b_{N}=b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathsf{t}^{\mathrm{T}} \mathsf{t}\right)$ を使うと

\begin{aligned} p(\mathsf{t}) &= \underbrace{\frac{\beta^{\frac{M}{2}}}{(2 \pi)^{\frac{M}{2}}|\mathbf{S}_N|^{\frac{1}{2}}} \int \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] d \mathbf{w}}_{\text{Normal distribution, equal to 1}} \cdot \frac{\left|\mathbf{S}_{N}\right|^{\frac{1}{2}} b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \underbrace{\int \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) d \beta}_{\text{Gamma distribution (not normalized)}} \\ &= \frac{b_{0}^{a_{0}}\left|\mathbf{S}_{N}\right|^{\frac{1}{2}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \frac{\Gamma\left(a_{N}\right)}{b_{N}^{a_{N}}} \\ &=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \end{aligned}

以上から $(3.118)$ 式となることが示された。

演習 3.24

次の形のベイズの定理に事前，事後分布と尤度関数を代入して上記の $(3.118)$ が成立することを示せ．

p(\mathsf{t})=\frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \tag{3.119}

$(3.119)$ の分母は演習問題3.12の $(3.113)$ の $p(\mathbf{w}, \beta | \mathbf{t})=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right)$ で、分子の $p(\mathsf{t} | \mathbf{w}, \beta)$ は演習問題3.16の $\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)$ で、 $p(\mathbf{w}, \beta)$ は $\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right)$ で、それぞれ与えられる。これらを代入して展開する。まず分母について計算すると