はじめに
PRML解答例まとめを参照
演習 3.13
演習問題3.12で議論したモデルに対する予測分布p(t|\mathbf{x},\mathsf{t})が次の形のスチューデントのt分布
p(t | \mathbf{x}, \mathsf{t})=\operatorname{St}(t | \mu, \lambda, \nu) \tag{3.114}
で与えられることを示し,\mu, \lambda, \nuについての式を求めよ.
(2022年11月25日修正; コメントありがとうございました)
p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right) \tag{3.8}
p(\mathbf{w}, \beta \mid \mathsf{t}, \mathbf{X}) = \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \tag{3.113}
と3.3.2節の議論より,予測分布は
\begin{aligned}
p(t \mid \mathbf{x}, \mathbf{X}, \mathsf{t})
&= \iint p(t \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w}, \beta \mid \mathsf{t}, \mathbf{X}) \mathrm{d}\mathbf{w} \mathrm{d}\beta \\
&= \iint \mathcal{N}\left(t \mid \phi(\mathbf{x})^{\mathrm{T}} \mathbf{w}, \beta^{-1}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \mathrm{d} \beta
\end{aligned}
となる.
ここで,\mathbf{w}についての積分は線形ガウスモデルなので,公式
p(\mathbf{x})=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right) \tag{2.113}
p(\mathbf{y} \mid \mathbf{x})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right) \tag{2.114}
p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathbf{T}}\right) \tag{2.115}
を用いる.
\tag{3.49}
p(\mathbf{w} \mid \mathbf{t})=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right)
を(2.113)に,
\tag{3.8}
p(t \mid \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(\mathbf{x}, \mathbf{w}), \beta^{-1}\right)
\tag{3.3}
y(\mathbf{x}, \mathbf{w})=\sum_{j=0}^{M-1} w_{j} \phi_{j}(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})
を(2.114)に適用するために
\begin{aligned}
\mathbf{x} \Rightarrow \mathbf{w} \quad \boldsymbol{\mu} \Rightarrow \mathbf{m}_{N} \quad \mathbf{\Lambda}^{-1} \Rightarrow \beta^{-1}\mathbf{S}_{N} \quad \mathbf{y} \Rightarrow t \quad \mathbf{A} \Rightarrow \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}}=\boldsymbol{\phi}^{\mathrm{T}} \quad \mathbf{b} \Rightarrow \mathbf{0} \quad \mathbf{L}^{-1} \Rightarrow \beta^{-1}
\end{aligned}
と置き換えると,(2.115)より
\begin{aligned}
p(t \mid \beta) &=\mathcal{N}\left(t \mid \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1}+\boldsymbol{\phi}^{\mathrm{T}} (\beta^{-1}\mathbf{S}_{N}) \boldsymbol{\phi}\right) \\
&=\mathcal{N}\left(t \mid \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1}\left(1+\boldsymbol{\phi}^{\mathrm{T}}\left(\mathbf{S}_{0}^{-1}+\boldsymbol{\phi}^{\mathrm{T}} \boldsymbol{\phi}\right)^{-1} \boldsymbol{\phi}\right)\right)
\end{aligned}
となる.ただし,演習問題3.12より,\beta \mathbf{S}_{N}^{-1} = \beta\left[ \mathbf{S}_0^{-1} + \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \right]を用いた.
したがって予測分布は
p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}) = \int \mathcal{N}\left(t \mid \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N}, \beta^{-1} s\right) \operatorname{Gam}\left(\beta \mid a_{N}, b_{N}\right) \mathrm{d} \beta
と変形できる.ただし
s=1+\boldsymbol{\phi}^{\mathrm{T}}\left(\mathbf{S}_{0}^{-1}+\boldsymbol{\phi}^{\mathrm{T}} \boldsymbol{\phi}\right)^{-1} \boldsymbol{\phi}
とおいた.ここで,スチューデントのt分布の式
\tag{2.158}
\begin{aligned}
p(x \mid \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x \mid \mu, \tau^{-1}\right) \operatorname{Gam}(\tau \mid a, b) \mathrm{d} \tau \\
&=\int_{0}^{\infty} \frac{b^{a} e^{(-b \tau)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\
&=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{1 / 2}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-1 / 2} \Gamma(a+1 / 2)
\end{aligned}
\tag{2.159}
\operatorname{St}(x \mid \mu, \lambda, \nu)=\frac{\Gamma(\nu / 2+1 / 2)}{\Gamma(\nu / 2)}\left(\frac{\lambda}{\pi \nu}\right)^{1 / 2}\left[1+\frac{\lambda(x-\mu)^{2}}{\nu}\right]^{-\nu / 2-1 / 2}
を参考にすると
\begin{aligned}
p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t})
&= \int_{0}^{\infty} \frac{b_N^{a_N} e^{(-b_N \beta)} \beta^{a_N-1}}{\Gamma(a_N)}\left(\frac{\beta s^{-1}}{2 \pi}\right)^{1 / 2} \exp \left\{-\frac{\beta s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2}\right\} \mathrm{d} \beta \\
&=\frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \beta^{(a_N + \frac{1}{2})-1} \exp \left\{-\left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta \right\} \mathrm{d} \beta \\
\end{aligned}
ここで\displaystyle u = \left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\betaと変数変換して\displaystyle \mathrm{d}u = \left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right) \mathrm{d}\betaと積分範囲に注意すると
\begin{aligned}
p(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t})
&= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \beta^{(a_N + \frac{1}{2})-1} \exp \left\{-\left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)\beta \right\} \mathrm{d} \beta \\
&= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \int_{0}^{\infty} \left(b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right)^{-\left\{(a_N + \frac{1}{2})-1\right\}-1} u^{(a_N + \frac{1}{2})-1} e^{-u} \mathrm{d}u \\
&= \frac{b_N^{a_N}}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} \left[b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - \frac{1}{2}} \Gamma\left(a_N + \frac{1}{2}\right) \\
&= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} b_N^{a_N} \left[b_N + \frac{s^{-1}}{2}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\
&= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{s^{-1}}{2 \pi}\right)^{1 / 2} b_N^{a_N} b_N^{-a_N - 1/2} \left[1 + \frac{a_N}{b_N} \frac{s^{-1}}{2a_N}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\
&= \frac{\Gamma\left(a_N + 1/2\right)}{\Gamma(a_N)}\left(\frac{a_N}{b_N}\frac{s^{-1}}{2 a_N\pi}\right)^{1 / 2} \left[1 + \frac{a_N}{b_N} \frac{s^{-1}}{2a_N}(t-\boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N})^{2} \right]^{-a_N - 1/2} \\
&= \operatorname{St}(t \mid \mu, \lambda, \nu)
\end{aligned}
となることがわかる.ただし
\begin{aligned}
\mu &= \boldsymbol{\phi}^{\mathrm{T}} \mathbf{m}_{N} \\
\lambda &= \frac{a_{N}}{b_{N}} s^{-1} \\
\nu &= 2 a_{N}
\end{aligned}
である.
演習 3.14
この演習問題では,
k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}\left(\mathbf{x}^{\prime}\right) \tag{3.62}
で定義される等価カーネルのより深い性質を調べよう.ただし,\mathbf{S}_Nは
\mathbf{S}_{N}^{-1}=\alpha \mathbf{I}+\beta \Phi^{\mathrm{T}} \boldsymbol{\Phi} \tag{3.54}
で定義される.基底関数\phi_j(\mathbf{x})は線形独立であると仮定し,データ点の数Nは基底関数の数Mよりも大きいものとする.さらに,基底関数の1つは定数,すなわち\phi_0(\mathbf{x})=1とするこれらの基底関数の適当な線形結合を取り,同じ空間を張る新しい基底関数集合\psi_j(\mathbf{x})を生成することができる.ただし,新しい基底関数は正規直交である.
\sum_{n=1}^{N} \psi_{j}\left(\mathbf{x}_{n}\right) \psi_{k}\left(\mathbf{x}_{n}\right)=I_{j k} \tag{3.115}
I_{jk}はj=kのとき1を取り,それ以外は0を取る.また,\psi_0(\mathbf{x})=1と定義する.このとき\alpha=0に対して,等価カーネルがk\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\boldsymbol{\psi}(\mathbf{x})^{\mathrm{T}} \boldsymbol{\psi}\left(\mathbf{x}^{\prime}\right)と書けることを示せ.ただし,\boldsymbol{\psi}=(\psi_0,\ldots,\psi_M)^{\mathrm{T}}である.そしてこの結果を用いて,上記のカーネルが
\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right)=1 \tag{3.116}
を満たすことを示せ.
\alpha = 0より
\mathbf{S}_{N}^{-1}=\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}
また、基底関数の適当な線型結合をとり互いに正規直交な新しい基底関数集合\psi_j(\mathbf{x})を
\boldsymbol{\psi(\mathbf{x})}=\mathbf{A}\boldsymbol{\phi(\mathbf{x})}
とおく。また、これを用いて\mathbf{\Psi}を
\mathbf{\Psi}=\mathbf{\Phi}\mathbf{A}^{\mathrm{T}} \\
\mathbf{\Psi}(\mathbf{A}^{\mathrm{T}})^{-1} =\mathbf{\Phi}
と定義する。ここで(3.115)を用いると\mathbf{\Psi}^\mathrm{T}\mathbf{\Psi}=\mathbf{I}なので
\begin{aligned}
\mathbf{S}_{N}^{-1}&=\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\\
&= \beta\mathbf{A}^{-1}\mathbf{\Psi}^{\mathrm{T}}\mathbf{\Psi}(\mathbf{A}^\mathrm{T})^{-1}\\
&= \beta(\mathbf{A}^\mathrm{T}\mathbf{A})^{-1}
\end{aligned}
これを(3.62)に代入すると
\begin{aligned}
k\left(\mathbf{x}, \mathbf{x}'\right)&=\boldsymbol{\phi}^\mathrm{T}(\mathbf{x})\mathbf{A}^\mathrm{T}\mathbf{A}\boldsymbol{\phi}(\mathbf{x}') \\
&= \boldsymbol{\psi}^\mathrm{T}(\mathbf{x})\boldsymbol{\psi}(\mathbf{x}')
\end{aligned}
が得られる。
また、これを(3.116)に代入すると
\begin{aligned}
(3.116) &= \sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_n\right) \\
&= \sum_{n=1}^{N}\boldsymbol{\psi}^\mathrm{T}(\mathbf{x})\boldsymbol{\psi}(\mathbf{x}_n) \\
&= \sum_{n=1}^{N} \sum_{i=0}^{M-1} \psi_i(\mathbf{x})\psi_i(\mathbf{x}_n) \\
&= \sum_{i=0}^{M-1}\psi_i(\mathbf{x})\sum_{n=1}^{N}\psi_i(\mathbf{x}_n)
\end{aligned}
ここで、(3.115)のk=0のときを考えると\psi_0(\mathbf{x})=1なので
\begin{aligned}
\sum_{n=1}^{N}\psi_j(\mathbf{x}_n)\psi_0(\mathbf{x}_n)&=\sum_{n=1}^{N}\psi_j(\mathbf{x}_n) = \mathbf{I}_{j0}
\end{aligned}
よって
\begin{aligned}
\sum_{i=0}^{M-1}\psi_i(\mathbf{x})\sum_{n=1}^{N}\psi_i(\mathbf{x}_n)=\sum_{i=0}^{M-1}\psi_i(\mathbf{x})\mathbf{I}_{i0}=\psi_0(\mathbf{x}) = 1
\end{aligned}
以上より
\begin{aligned}
\sum_{n=1}^{N}k(\mathbf{x},\mathbf{x}_n) = 1
\end{aligned}
を満たすことを示した。
演習 3.15
線形基底関数からなる回帰モデルの超パラメータ\alpha,\ \betaをエビデンスの枠組みを用いて決定する場合を考える.
E\left(\mathbf{m}_{N}\right)=\frac{\beta}{2}\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \tag{3.82}
で定義される関数E(\mathbf{m}_N)が関係式2E(\mathbf{m}_N)=Nを満たすことを示せ.
(3.92)式と(3.95)式を代入するだけで答えが出る
\alpha = \frac{ \gamma }{ \mathbf{m}_{N}^\mathrm{T} \mathbf{m}_{N} } \tag{3.92}
\beta = (N-\gamma) \left\{\sum_{n=1}^{N}\left\{t_n-\mathbf{m}_{N}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right\}^2\right\}^{-1} \tag{3.95}
これらを(3.82)式に代入すると
\begin{aligned}
E(\mathbf{m}_N) &= \frac{(N-\gamma)\left\|\mathbf{t}-\Phi \mathbf{m}_{N}\right\|^{2}}{2 \sum_{n=1}^{N}\left\{t_n-\mathbf{m}_{N}^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}_n)\right\}^2}+\frac{\gamma \mathbf{m}_{N}^\mathrm{T}\mathbf{m}_{N}}{2\mathbf{m}_{N}^\mathrm{T}\mathbf{m}_{N}} \\
&=\frac{N-\gamma}{2}+\frac{\gamma}{2} \\
&= \frac{N}{2}
\end{aligned}
よって2E(\mathbf{m}_N)=Nが示せた。
演習 3.16
p(\mathbf{t} \mid \alpha, \beta)=\int p(\mathbf{t} \mid \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) \mathrm{d} \mathbf{w} \tag{3.77}
の積分の評価に
p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathbf{T}}\right) \tag{2.115}
を直接用いて,
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}
で与えられる線形回帰モデルの対数エビデンス関数p(\mathbf{t}|\alpha, \beta)の結果を導け.
※ (2.115)式を適用するところまではそこまで難しくないが、- \frac {1}{2} \ln \left | \beta^{-1} \mathbf I_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right |と-\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}を(3.86)式のように変形するところが非常にテクニカル。付録CのWoodburyの公式(C.7)や行列式についての変形の定理(C.14)を利用する必要がある。
(3.77)式の積分を計算する。p(\mathsf{t}\mid \mathbf{w}, \beta)は(3.10)式から、p(\mathbf{w}|\alpha)は(3.52)式から与えられる。
(3.52)式よりp(\mathbf{w}\mid \alpha) = \mathcal{N}(\mathbf{w}\mid \mathbf{0},\alpha^{-1}\mathbf{I}_M)である。また、(3.10)式から
\begin{aligned}
p(\mathsf{t} \mid \mathbf{w}, \beta) &=\prod_{n=1}^{N} \mathcal{N}\left(t_n \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) \\
&=\prod_{n=1}^{N}\left(\frac{\beta}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta}{2}\left(t_n-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{2}\right\} \\
&=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2} \sum_{n=1}^{N}\left(t_n-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{2}\right\} \\
&=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}\left(\mathsf{t}-\mathbf{\Phi}\mathbf{w}\right)^{\mathrm{T}}\left(\mathsf{t}-\mathbf{\Phi}\mathbf{w}\right)\right\} \\
&=\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)
\end{aligned}
となる。注意点として、\mathbf{\Phi}はN\times M行列、\mathbf{w}はM次元の列ベクトルである。
ここで、問題文のヒントにしたがって
\begin{aligned}
\mathbf y \rightarrow \mathbf t, \quad \mathbf x \rightarrow\mathbf w, \quad \boldsymbol \mu\rightarrow\mathbf 0, \quad \mathbf{\Lambda}^{-1}\rightarrow\alpha ^{-1}\mathbf I_M,\quad \mathbf A\rightarrow\mathbf{\Phi} ,\quad \mathbf L^{-1}\rightarrow\beta^{-1} \mathbf I_N
\end{aligned}
と置き換えると、(2.115)式を使ってp(\mathsf{t}\mid \alpha, \beta)を求めることができる。これより
p\left(\mathsf{t} \mid \alpha,\beta \right) = \mathcal{N}\left(\mathsf{t}\mid \mathbf{0}, ~ \beta^{-1} \mathbf{I}_N+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T} \right)
と求まる。これについて対数をとって展開していくと((2.43)の対数表現にあてはめて)
\ln p\left( \mathsf{t} \mid \alpha,\beta \right) = -\frac {N}{2} \ln \left ( 2 \pi \right ) - \frac {1}{2} \ln \left | \beta^{-1} \mathbf I_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right | -\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}
となる。この第2項と第3項について計算していく。
まず第2項について
\begin{aligned}
\left|\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| &=\beta^{-N} \cdot \beta^{N}\left|\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| \\
&=\beta^{-N}\left|\mathbf{I}_{N}+\beta \alpha^{-1} \mathbf{\Phi\Phi}^{\mathrm T}\right| \quad\left(\because k^{N}|\mathbf{N}|=|k \mathbf{N}|\right) \\
&=\beta^{-N}\left|\mathbf{I}_{M}+\beta \alpha^{-1} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right| \quad(\because \text {Appendix}\ (\text{C}.14)) \\
&=\beta^{-N} \alpha^{-M}\left|\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right|\quad\left(\because k^M|\mathbf{M}|=|k \mathbf{M}|\right) \\
&=\beta^{-N} \alpha^{-M}|\mathbf{A}|\quad(\because \mathbf{A} = \alpha \mathbf{I}_M+\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}\quad (3.81))
\end{aligned}
が得られる。ここで、以下の定理を用いた。
任意のn\times n行列\mathbf{A}と任意のスカラー値kに対して
|k\mathbf{A}| = k^n|\mathbf{A}|
が成り立つ(統計のための行列代数P.217, 系13.2.4)
また対数を取った時の第3項についてはまず
-\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\alpha ^{-1} \mathbf{\Phi}\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t} = -\frac{1}{2} \mathsf{t}^{\mathrm T} \left( \beta^{-1} \mathbf{I}_N+\mathbf{\Phi}(\alpha ^{-1} \mathbf{I}_M)\mathbf{\Phi}^{\mathrm T} \right)^{-1} \mathsf{t}
としてからWoodburyの公式
\left ( \mathbf A + \mathbf {BD}^{-1} \mathbf C \right ) ^{-1} = \mathbf A^{-1}-\mathbf A^{-1} \mathbf{B} \left ( \mathbf D + \mathbf{CA}^{-1}\mathbf B \right ) ^{-1}\mathbf{CA}^{-1} \tag {C.7}
に当てはめると
\begin{aligned}
-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}_{N}+\alpha^{-1} \mathbf{\Phi} \Phi^{\mathrm{T}}\right)^{-1} \mathsf{t} &=-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left[\beta \mathbf{I}_{N}-\beta\mathbf{I}_{N} \mathbf{\Phi}\left(\alpha \mathbf{I}_{M}+\mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_N)\mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_N)\right] \mathsf{t} \\
&=-\frac{1}{2} \mathsf{t}^{\mathrm{T}}\left[\beta \mathbf{I}_{N}-\beta \mathbf{\Phi}\left(\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \beta\right] \mathsf{t} \\
&=-\frac{\beta}{2} \mathsf{t}^{\mathrm{T}} \mathsf{t}+\frac{\beta^{2}}{2} \mathsf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t} \\
&=-\frac{\beta}{2} \mathsf{t}^{\mathrm{T}} \mathsf{t}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N} \quad (\because \mathbf{m}_{N}=\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t}, (\mathbf{A}^{-1})^{\mathrm{T}} = (\mathbf{A}^{\mathrm{T}})^{-1} = \mathbf{A}^{-1}) \\
&=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{A} \mathbf{m}_{N}\right) \\
&=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A}\left(\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t}\right)+\mathbf{m}_{N}^{\mathrm{T}}\left(\alpha \mathbf{I}_{M}+\beta \mathbf{\Phi}^{\mathrm{T}} \boldsymbol{\Phi}\right) \mathbf{m}_{N}\right) \\
&=-\frac{1}{2}\left(\beta \mathsf{t}^{\mathrm{T}} \mathsf{t}-2 \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathsf{t} \beta+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\
&=-\frac{1}{2}\left(\beta\left(\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right)^{\mathrm{T}}\left(\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right)+\alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}\right) \\
&=-\frac{\beta}{2}\left\|\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}-\frac{1}{2} \alpha \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \\
&=-E(\mathbf{m}_N)\quad(\because\ (3.82))
\end{aligned}
以上から
\ln p \left ( \mathsf{t} \mid \alpha,\beta \right ) =\frac {M}{2} \ln \alpha + \frac {N}{2} \ln \beta - E \left ( \mathbf m_N \right ) -\frac{1}{2} \ln \left | \mathbf A \right | -\frac {N}{2} \ln \left ( 2 \pi \right ) \tag{3.86}
を導出することができた。
演習 3.17
ベイズ線形回帰モデルに対するエビデンス関数が
p(\mathbf{t} \mid \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} \tag{3.78}
の形式で書けることを示せ.ただし,
\begin{aligned}
E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\
&=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}
\end{aligned} \tag{3.79}
で定義される.
※演習問題3.16よりも簡単。
p(\mathsf{t}\mid \alpha, \beta) = \int p(\mathsf{t}\mid \mathbf{w},\beta)p(\mathbf{w}\mid\alpha)d\mathbf{w}\quad (3.77)を求める。演習3.16で示した通り
p(\mathsf{t}\mid \mathbf{w},\beta) = \left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\boldsymbol{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\boldsymbol{\Phi} \mathbf{w})\right\}\\
\begin{aligned}
p(\mathbf{w}\mid\alpha) &= \mathcal{N}(\mathbf{w}\mid \mathbf{0}, \alpha^{-1}\mathbf{I}_M) \\
&=\left( \frac{\alpha}{2\pi} \right)^{\frac{M}{2}}\exp \left\{ -\frac{1}{2}\mathbf{w}^{\mathrm{T}}(\alpha^{-1}\mathbf{I}_M)^{-1}\mathbf{w}\right\} \\
&=\left( \frac{\alpha}{2\pi} \right)^{\frac{M}{2}}\exp \left\{ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\}
\end{aligned}
なのでこれらを代入すると
\begin{aligned}
p(\mathbf{t} \mid \alpha, \beta)&=\int\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi}\mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi}\mathbf{w}) - \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \mathrm{d} \mathbf{w} \\
&=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2}\int \exp\left\{-\frac{\beta}{2}||\mathsf{t}-\mathbf{\Phi}\mathbf{w}||^{2} - \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w}\right\} \mathrm{d} \mathbf{w}
\end{aligned}
となる。これは(3.78),(3.79)の形になっている。
演習 3.18
\mathbf{w}に関して平方完成することにより,
\begin{aligned}
E(\mathbf{w}) &=\beta E_{D}(\mathbf{w})+\alpha E_{W}(\mathbf{w}) \\
&=\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}
\end{aligned} \tag{3.79}
で定義されるベイズ線形回帰の誤差関数が
E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}
の形で書けることを示せ.
※誘導に従って平方完成して式変形していくだけ。\mathbf{A} = \alpha \mathbf{I}_M+\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}=(\alpha \mathbf{I}_M+\mathbf{\Phi}^{\mathrm T}(\beta\mathbf{I}_M)\mathbf{\Phi})と(3.84)式の定義\mathbf{m}_N=\beta \mathbf{A}^{-1}\mathbf{\Phi}^{\mathrm T}\mathsf{t}を途中で導入する。
\begin{aligned}
E(\mathbf{w}) &= \frac{\beta}{2} ||\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\
&=\frac{\beta}{2}\left(\mathbf{t}^{\mathrm{T}} \mathbf{t}-2 \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}\right)+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w} \\
&=\frac{1}{2}\left(\mathbf{w}^{\mathrm{T}}\mathbf{\Phi}^{\mathrm{T}}(\beta\mathbf{I}_M)\mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm{T}}(\alpha \mathbf{I}_M)\mathbf{w}-2\beta\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t} \right) \\
&=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\beta\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}\right) \\
&=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\mathbf{m}_N^{\mathrm T}\mathbf{A}^{\mathrm T}\mathbf{\Phi}^{-1}\mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}\right) \\
&=\frac{1}{2}\left( \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}-2\mathbf{m}_N^{\mathrm T}\mathbf{A}^{\mathrm T}\mathbf{w}+\mathbf{m}_N^{\mathrm T}\mathbf{A}\mathbf{m}_N\right) - \frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} \\
&=\frac{1}{2}(\mathbf{w} - \mathbf{m}_N)^{\mathrm T}\mathbf{A}(\mathbf{w} - \mathbf{m}_N)- \frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t}
\end{aligned}
ここで、\displaystyle -\frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t}については演習問題3.16の後半の式変形と同じなので
\begin{aligned}
-\frac{1}{2}\mathbf{m}_N^{\mathrm T} \mathbf{A} \mathbf{m}_N + \frac{\beta}{2}\mathbf{t}^{\mathrm{T}} \mathbf{t} &= \frac{\alpha}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N + \frac{\beta}{2}\left\|\mathsf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}\\
&=E(\mathbf{m}_N)
\end{aligned}
となるので、結果として(3.80)式
E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right) \tag{3.80}
が成立する。
演習 3.19
ベイズ線形回帰モデルの\mathbf{w}に関する積分が
\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2}
\tag{3.85}
で与えられることを示せ.したがって,対数周辺尤度が
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}
で与えられることを示せ.
(3.85)の積分が成立することを示す。
E(\mathbf{w})=E\left(\mathbf{m}_{N}\right)+\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)
\tag{3.80}
E\left(\mathbf{m}_{N}\right)=\frac{\beta}{2}\left\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}_{N}\right\|^{2}+\frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}
\tag{3.82}
(3.80)式から(3.85)が成り立つことを示す。(3.82)よりE\left(\mathbf{m}_{N}\right)は\mathbf{w}の関数ではないため積分の外に出すことができる。
\begin{aligned}
\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\} \int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w}
\end{aligned}
今\mathbf{w}の次元はMであるので、正規化された多次元ガウス分布の形
\frac{1}{(2 \pi)^{M / 2}} \frac{1}{|\mathbf{A}|^{-1 / 2}}\int \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{A}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\} \mathrm{d} \mathbf{w} = 1
から正規化係数部分を取り出せば
\int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w} =\exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2}
\tag{3.85}
(3.85)を示すことができる。
対数周辺尤度は
p(\mathsf{t} | \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \int \exp \{-E(\mathbf{w})\} \mathrm{d} \mathbf{w}
\tag{3.78}
で表すことができ、(3.85)の結果と合わせると、
p(\mathsf{t} | \alpha, \beta)=\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-E\left(\mathbf{m}_{N}\right)\right\}(2 \pi)^{M / 2}|\mathbf{A}|^{-1 / 2}
この等式に対数を取ってやると、
\ln p(\mathsf{t} | \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi)
\tag{3.86}
よって対数周辺尤度が(3.86)で与えられることが示された。
演習 3.20
対数周辺尤度関数
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}
の\alphaに関する最大化が再推定方程式
\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm{T}}\mathbf{m}_N},\quad \gamma = \sum_{i}\frac{\lambda_i}{\alpha+\lambda_i} \tag{3.92}
に帰着されることを示すのに必要なすべての段階を(3.86)から始めて確かめよ.
※3.5.2 エビデンス関数の最大化をなぞるだけ。
(3.86)式を\alphaで偏微分する。そのために,まず次の固有ベクトル方程式を考える。
\left(\beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = \lambda_i \mathbf{u}_i \tag{3.87}
また、\alpha \mathbf{I}_Mについての固有値は当然\alphaであり、(\alpha \mathbf{I}_M)\mathbf{u}_i = \alpha \mathbf{u}_iのように書けるので、この2式を足せば
\left(\alpha \mathbf{I}_M + \beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = (\alpha + \lambda_i)\mathbf{u}_i
となるので、\mathbf{A}は固有値\alpha + \lambda_iを持つことがわかる。ここで,(3.86)に含まれる\ln |\mathbf{A}|の項の\alphaに関する導関数を考えると
\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^M \left(\lambda_{i}+\alpha\right)=\frac{d}{d \alpha} \sum_{i=1}^M \ln \left(\lambda_{i}+\alpha\right)=\sum_{i=1}^M \frac{1}{\lambda_{i}+\alpha} \tag{3.88}
が得られる。これより,(3.86)の\alphaに関する停留点は
0 = \frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N-\frac{1}{2}\sum_{i=1}^M \frac{1}{\lambda_i+\alpha} \tag{3.89}
を満たす。2\alphaを掛け,式を整理すれば
\alpha\mathbf{m}_N^{\mathrm T}\mathbf{m}_N = M - \alpha \sum_{i=1}^M \frac{1}{\lambda_i + \alpha} = \sum_{i=1}^M \left( 1- \frac{1}{\lambda_i + \alpha} \right) = \sum_{i=1}^M \frac{\lambda_i}{\lambda_i + \alpha} \equiv \gamma
が得られる。よって
\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm T}\mathbf{m}_N} \tag{3.92}
となる。
演習 3.21
(3.92)はエビデンスの枠組みにおける最適な\alphaの値である.この結果は,次の等式を使って導出することもできる.
\frac{d}{d \alpha} \ln |\mathbf{A}|=\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}
実対称行列\mathbf{A}の固有値展開,および\mathbf{A}の行列式とトレースの固有値表現の標準的結果(付録C参照)を用いて,この等式を証明せよ.そして,(3.117)を用いて,(3.86)から(3.92)を導け.
※(3.117)を証明する。付録Cも参照。
まず\mathbf{A} = \alpha \mathbf{I}_M + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}であり、\mathbf{A}\mathbf{u}_i = \lambda_i \mathbf{u}_iとなるような固有値\lambda_iと固有ベクトル\mathbf{u}_iが存在する。この2つはそれぞれ\alphaに依存する。
\mathbf{U} = (\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_M)とすると\mathbf{AU} = \mathbf{U\Lambda}と書くことができる。ここで\mathbf{\Lambda}は\lambda_iを対角成分とするM\times M対角行列である(付録Cの(C.38))。
実対称行列\mathbf{A}についての\mathbf{U}は正規直交行列となるようにとることができるので(C.29)〜(C.36)、\mathbf{U}^{\mathrm T}\mathbf{U}=\mathbf{I}, よって\mathbf{U}^{\mathrm T} = \mathbf{U}^{-1}となる。これより\mathbf{A} = \mathbf{U\Lambda U}^{-1}が得られ、
|\mathbf{A}| = |\mathbf{U}||\mathbf{\Lambda}||\mathbf{U}^{-1}|=|\mathbf{\Lambda}|=\prod_{i=1}^M \lambda_i
となることが分かる。
一方で
\operatorname{Tr}(\mathbf{A}) = \operatorname{Tr}(\mathbf{U\Lambda U}^{-1}) = \operatorname{Tr}(\mathbf{U}^{-1}\mathbf{U\Lambda}) = \operatorname{Tr}(\mathbf{\Lambda}) = \sum_{i=1}^M \lambda_i
である。
以上から(3.117)の左辺について変形すると
\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^{M} \lambda_{i}=\frac{d}{d \alpha} \sum_{i=1}^{M} \ln \lambda_{i}=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d}{d \alpha} \lambda_{i}
となる。続いて右辺について
\begin{aligned}
\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \frac{d}{d \alpha} \sum_{j=1}^{M} \lambda_{j} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right) \\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\left\{\sum_{j=1}^{M}\left(\frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}+\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right\}\right) \\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \sum_{j=1}^{M} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \left( \sum_{j=1}^{M} \left(\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right) \right)\\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{2\lambda_{j}}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha} \right) \quad \left(\because \sum_i \alpha_i\sum_j \beta_j = \sum_i \sum_j \alpha_i \beta_j \right)\\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} 2 \mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right) \quad \left( \because \mathbf{u}_i^{\mathrm T}\mathbf{u}_j = \delta_{ij}より, i=jの項だけが残る \right)\\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\sum_{i=1}^{M}\left(\frac{d \mathbf{u}_{i}}{d \alpha} \mathbf{u}_{i}^{\mathrm T}+\mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right)\right) \\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \sum_{i=1}^{M} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right) \\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \mathbf{I}_{M}\right) \\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}
\end{aligned}
以上の式変形から
\frac{d}{d \alpha} \ln |\mathbf{A}| = \operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}
が示された。
後半の(3.92)の導出は演習問題3.20とほぼ同じなので省略。
演習 3.22
対数周辺尤度関数
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}
の\betaに関する最大化が再推定方程式
\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}
に帰着されることを示すのにすべての段階を,(3.86)から始めて確かめよ.
※P.168をなぞるだけ
(3.86)の\ln p(\mathsf{t}\mid \alpha, \beta)を\betaで偏微分する。準備として、\displaystyle \frac{\partial}{\partial \beta}\ln |\mathbf{A}|について、\betaと\lambda_iは比例するので\displaystyle \frac{\partial \lambda_i}{\partial \beta} = \frac{\lambda_i}{\beta}より
\frac{d}{d \beta} \ln |\mathbf{A}|=\frac{d}{d \beta} \sum_{i} \ln \left(\lambda_{i}+\alpha\right)=\frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\lambda_{i}+\alpha}=\frac{\gamma}{\beta}
が得られる。したがって, 周辺尤度の停留点は
0=\frac{N}{2 \beta}-\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}-\frac{\gamma}{2 \beta} \tag{3.94}
これを整理すれば
\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}
が得られる。
\mathbf{m}_Nは\alpha, \betaに依存しているので本当はE(\mathbf{m}_N)も\betaで偏微分するともっと複雑な式になるが(\partial \mathbf{m}_N/\partial \betaの項を考える必要が出てくる)、P.168の\alphaのときのように繰り返し法で解くことを想定しているので\mathbf{m}_Nの\beta依存性は考慮しなくてよいことになっている。
演習 3.23
演習問題3.12で説明したモデルに対するデータの周辺確率(言い換えるとモデルエビデンス)が
p(\mathsf{t})=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \tag{3.118}
で与えられることを示せ.まず最初に\mathbf{w}に関して周辺化し,そして次に\betaに関して周辺化するとよい.
ベイズの定理と周辺確率から
p(t)=\iint p(\mathsf{t}, \mathbf{w}, \beta) d\mathbf{w} d \beta=\iint p(\mathsf{t} \mid \mathbf{w}, \beta) p(\mathbf{w}, \beta) d\mathbf{w} d\beta
と書くことができる。
演習問題3.12でやったように、p(\mathsf{t} \mid \mathbf{w}, \beta)は尤度関数、p(\mathbf{w},\beta)は共役事前分布となる(正規-ガンマ分布)。
p(\mathsf{t} \mid \mathbf{w}, \beta)は演習問題3.16でやったように\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)と表すことができる。よってこれらの式を使うと、
\begin{aligned}
p(\mathsf{t}) &=\iint \mathcal{N}\left(\mathsf{t} \mid \mathbf{\Phi} \mathbf{w}, \beta^{-1} \mathbf{I}_{N}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right) d \mathbf{w} d \beta \\
&=\iint\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})\right\}\left(\frac{\beta}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \exp \left\{-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right\}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\
&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}+ \mathbf{S}_{0}^{-1}\right) \mathbf{w}-2 \mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathsf{t}+ \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta
\end{aligned}
演習問題3.12で求めた\mathbf{S}_{N}^{-1}=\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{S}_{0}^{-1}, \quad \mathbf{m}_{N}=\mathbf{S}_{N}\left(\mathbf{\Phi}^{\mathrm T} \mathsf{t}+\mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)(※教科書(3.50), (3.51)のものとは異なるので注意)を使ってこれを書き換えると
\begin{aligned}
p(\mathsf{t})&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-2 \mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\
&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\
\end{aligned}
そしてさらに演習問題3.12で求めた\displaystyle a_{N}=a_{0}+\frac{N}{2},\quad b_{N}=b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathsf{t}^{\mathrm{T}} \mathsf{t}\right)を使うと
\begin{aligned}
p(\mathsf{t}) &= \underbrace{\frac{\beta^{\frac{M}{2}}}{(2 \pi)^{\frac{M}{2}}|\mathbf{S}_N|^{\frac{1}{2}}} \int \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] d \mathbf{w}}_{\text{Normal distribution, equal to 1}} \cdot \frac{\left|\mathbf{S}_{N}\right|^{\frac{1}{2}} b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \underbrace{\int \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) d \beta}_{\text{Gamma distribution (not normalized)}} \\
&= \frac{b_{0}^{a_{0}}\left|\mathbf{S}_{N}\right|^{\frac{1}{2}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \frac{\Gamma\left(a_{N}\right)}{b_{N}^{a_{N}}} \\
&=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}}
\end{aligned}
以上から(3.118)式となることが示された。
演習 3.24
次の形のベイズの定理に事前,事後分布と尤度関数を代入して上記の(3.118)が成立することを示せ.
p(\mathsf{t})=\frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \tag{3.119}
(3.119)の分母は演習問題3.12の(3.113)のp(\mathbf{w}, \beta | \mathbf{t})=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right)で、分子のp(\mathsf{t} | \mathbf{w}, \beta)は演習問題3.16の\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)で、p(\mathbf{w}, \beta)は\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right)で、それぞれ与えられる。これらを代入して展開する。まず分母について計算すると
\begin{aligned}
p(\mathbf{w}, \beta | \mathbf{t})&=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right) \\
&=\left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w} +\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right) \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) \\
&= \left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}-\mathbf{w}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} - \mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right) \\ &\quad \ \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1} \exp \left(-\left(b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathbf{t}^{\mathrm{T}} \mathbf{t}\right)\right) \beta\right) \\
&=\left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)+\|\mathbf{t}-\Phi \mathbf{w}\|^{2}\right)\right) \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1} \exp \left(-b_{0} \beta\right)
\end{aligned}
一方で分子は
\begin{aligned}
p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta) &= \left(\frac{\beta}{2 \pi}\right)^{N / 2} \exp \left(-\frac{\beta}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^{2}\right) \left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{0}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right) \\
&\quad\ \Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right)
\end{aligned}
よってこれらを用いて約分すると
\begin{aligned}
p(\mathsf{t}) &= \frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \\
&= \frac{\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left|\mathbf{S}_{0}\right|^{-1 / 2}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1}}{\left|\mathbf{S}_{N}\right|^{-1 / 2}\Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1}} \\
&= \frac{1}{(2\pi)^{N/2}}\frac{\left|\mathbf{S}_{0}\right|^{-1 / 2}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}}}{\left|\mathbf{S}_{N}\right|^{-1 / 2}\Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}}} \\
&=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}}
\end{aligned}
となり、(3.118)式が得られることが確認された。
Discussion
いつもYOSHITAKA先生の解答を写経しながらPRMLを独学している者です。
恐れながら、演習3.13回答のの22行目のSnの前にβ^-1、23行目と28行目のS0はS0^-1ではないかと思いますが、いかがでしょうか?
Choiko様、ご指摘ありがとうございました。式を見直し、ご指摘いただいた箇所周辺を修正しました。今後ともよろしくお願いいたします。
恐縮です!!YOSHITAKA先生の解答は大変分かりやすいです。最終章まで本ブログを愛読させていただきます。
また、Twitterフォローもありがとうございます。
引き続き、PRML頑張ります。
些末なことで誠に恐縮ですが、演習3.14の22行目のΦ^T Φ=Iは、Ψ^T Ψ=Iではないかと思いますが、いかがでしょうか?
その通りでした。修正を反映いたしました。
細かい点になりますが、演習問題3.19の13行目の1 /|A|^1/2は、|A|^1/2ではないかと思いますが、いかがでしょうか?
ご指摘ありがとうございました。そのままの形ではありませんが、等価な記述で修正致しました。
いつも大変お世話になっております。
あまり自信のない指摘となりますが、演習問題3.21の「続いて右辺について」の後に続く3行目において、一番右端のΣ記号の右にもう一つ()が必要かと思います。
また、6行目の第2項のTrの次のd/dαはΣ記号ではないかと思います。
ありがとうございます。たしかにその通りですので、修正いたしました。