はじめに
PRML解答例まとめを参照
演習 3.13
演習問題3.12で議論したモデルに対する予測分布p(t∣x,t)が次の形のスチューデントのt分布
p(t∣x,t)=St(t∣μ,λ,ν)(3.114)
で与えられることを示し,μ,λ,νについての式を求めよ.
(2022年11月25日修正; コメントありがとうございました)
p(t∣x,w,β)=N(t∣y(x,w),β−1)(3.8)
p(w,β∣t,X)=N(w∣mN,β−1SN)Gam(β∣aN,bN)(3.113)
と3.3.2節の議論より,予測分布は
p(t∣x,X,t)=∬p(t∣x,w,β)p(w,β∣t,X)dwdβ=∬N(t∣ϕ(x)Tw,β−1)N(w∣mN,β−1SN)dwGam(β∣aN,bN)dβ
となる.
ここで,wについての積分は線形ガウスモデルなので,公式
p(x)=N(x∣μ,Λ−1)(2.113)
p(y∣x)=N(y∣Ax+b,L−1)(2.114)
p(y)=N(y∣Aμ+b,L−1+AΛ−1AT)(2.115)
を用いる.
p(w∣t)=N(w∣mN,SN)(3.49)
を(2.113)に,
p(t∣x,w,β)=N(t∣y(x,w),β−1)(3.8)
y(x,w)=j=0∑M−1wjϕj(x)=wTϕ(x)(3.3)
を(2.114)に適用するために
x⇒wμ⇒mNΛ−1⇒β−1SNy⇒tA⇒ϕ(x)T=ϕTb⇒0L−1⇒β−1
と置き換えると,(2.115)より
p(t∣β)=N(t∣ϕTmN,β−1+ϕT(β−1SN)ϕ)=N(t∣ϕTmN,β−1(1+ϕT(S0−1+ϕTϕ)−1ϕ))
となる.ただし,演習問題3.12より,βSN−1=β[S0−1+ΦTΦ]を用いた.
したがって予測分布は
p(t∣x,X,t)=∫N(t∣ϕTmN,β−1s)Gam(β∣aN,bN)dβ
と変形できる.ただし
s=1+ϕT(S0−1+ϕTϕ)−1ϕ
とおいた.ここで,スチューデントのt分布の式
p(x∣μ,a,b)=∫0∞N(x∣μ,τ−1)Gam(τ∣a,b)dτ=∫0∞Γ(a)bae(−bτ)τa−1(2πτ)1/2exp{−2τ(x−μ)2}dτ=Γ(a)ba(2π1)1/2[b+2(x−μ)2]−a−1/2Γ(a+1/2)(2.158)
St(x∣μ,λ,ν)=Γ(ν/2)Γ(ν/2+1/2)(πνλ)1/2[1+νλ(x−μ)2]−ν/2−1/2(2.159)
を参考にすると
p(t∣x,X,t)=∫0∞Γ(aN)bNaNe(−bNβ)βaN−1(2πβs−1)1/2exp{−2βs−1(t−ϕTmN)2}dβ=Γ(aN)bNaN(2πs−1)1/2∫0∞β(aN+21)−1exp{−(bN+2s−1(t−ϕTmN)2)β}dβ
ここでu=(bN+2s−1(t−ϕTmN)2)βと変数変換してdu=(bN+2s−1(t−ϕTmN)2)dβと積分範囲に注意すると
p(t∣x,X,t)=Γ(aN)bNaN(2πs−1)1/2∫0∞β(aN+21)−1exp{−(bN+2s−1(t−ϕTmN)2)β}dβ=Γ(aN)bNaN(2πs−1)1/2∫0∞(bN+2s−1(t−ϕTmN)2)−{(aN+21)−1}−1u(aN+21)−1e−udu=Γ(aN)bNaN(2πs−1)1/2[bN+2s−1(t−ϕTmN)2]−aN−21Γ(aN+21)=Γ(aN)Γ(aN+1/2)(2πs−1)1/2bNaN[bN+2s−1(t−ϕTmN)2]−aN−1/2=Γ(aN)Γ(aN+1/2)(2πs−1)1/2bNaNbN−aN−1/2[1+bNaN2aNs−1(t−ϕTmN)2]−aN−1/2=Γ(aN)Γ(aN+1/2)(bNaN2aNπs−1)1/2[1+bNaN2aNs−1(t−ϕTmN)2]−aN−1/2=St(t∣μ,λ,ν)
となることがわかる.ただし
μλν=ϕTmN=bNaNs−1=2aN
である.
演習 3.14
この演習問題では,
k(x,x′)=βϕ(x)TSNϕ(x′)(3.62)
で定義される等価カーネルのより深い性質を調べよう.ただし,SNは
SN−1=αI+βΦTΦ(3.54)
で定義される.基底関数ϕj(x)は線形独立であると仮定し,データ点の数Nは基底関数の数Mよりも大きいものとする.さらに,基底関数の1つは定数,すなわちϕ0(x)=1とするこれらの基底関数の適当な線形結合を取り,同じ空間を張る新しい基底関数集合ψj(x)を生成することができる.ただし,新しい基底関数は正規直交である.
n=1∑Nψj(xn)ψk(xn)=Ijk(3.115)
Ijkはj=kのとき1を取り,それ以外は0を取る.また,ψ0(x)=1と定義する.このときα=0に対して,等価カーネルがk(x,x′)=ψ(x)Tψ(x′)と書けることを示せ.ただし,ψ=(ψ0,…,ψM)Tである.そしてこの結果を用いて,上記のカーネルが
n=1∑Nk(x,xn)=1(3.116)
を満たすことを示せ.
α=0より
SN−1=βΦTΦ
また、基底関数の適当な線型結合をとり互いに正規直交な新しい基底関数集合ψj(x)を
ψ(x)=Aϕ(x)
とおく。また、これを用いてΨを
Ψ=ΦATΨ(AT)−1=Φ
と定義する。ここで(3.115)を用いるとΨTΨ=Iなので
SN−1=βΦTΦ=βA−1ΨTΨ(AT)−1=β(ATA)−1
これを(3.62)に代入すると
k(x,x′)=ϕT(x)ATAϕ(x′)=ψT(x)ψ(x′)
が得られる。
また、これを(3.116)に代入すると
(3.116)=n=1∑Nk(x,xn)=n=1∑NψT(x)ψ(xn)=n=1∑Ni=0∑M−1ψi(x)ψi(xn)=i=0∑M−1ψi(x)n=1∑Nψi(xn)
ここで、(3.115)のk=0のときを考えるとψ0(x)=1なので
n=1∑Nψj(xn)ψ0(xn)=n=1∑Nψj(xn)=Ij0
よって
i=0∑M−1ψi(x)n=1∑Nψi(xn)=i=0∑M−1ψi(x)Ii0=ψ0(x)=1
以上より
n=1∑Nk(x,xn)=1
を満たすことを示した。
演習 3.15
線形基底関数からなる回帰モデルの超パラメータα, βをエビデンスの枠組みを用いて決定する場合を考える.
E(mN)=2β∥t−ΦmN∥2+2αmNTmN(3.82)
で定義される関数E(mN)が関係式2E(mN)=Nを満たすことを示せ.
(3.92)式と(3.95)式を代入するだけで答えが出る
α=mNTmNγ(3.92)
β=(N−γ){n=1∑N{tn−mNTϕ(xn)}2}−1(3.95)
これらを(3.82)式に代入すると
E(mN)=2∑n=1N{tn−mNTϕ(xn)}2(N−γ)∥t−ΦmN∥2+2mNTmNγmNTmN=2N−γ+2γ=2N
よって2E(mN)=Nが示せた。
演習 3.16
p(t∣α,β)=∫p(t∣w,β)p(w∣α)dw(3.77)
の積分の評価に
p(y)=N(y∣Aμ+b,L−1+AΛ−1AT)(2.115)
を直接用いて,
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)(3.86)
で与えられる線形回帰モデルの対数エビデンス関数p(t∣α,β)の結果を導け.
※ (2.115)式を適用するところまではそこまで難しくないが、−21lnβ−1IN+α−1ΦΦTと−21tT(β−1IN+α−1ΦΦT)−1tを(3.86)式のように変形するところが非常にテクニカル。付録CのWoodburyの公式(C.7)や行列式についての変形の定理(C.14)を利用する必要がある。
(3.77)式の積分を計算する。p(t∣w,β)は(3.10)式から、p(w∣α)は(3.52)式から与えられる。
(3.52)式よりp(w∣α)=N(w∣0,α−1IM)である。また、(3.10)式から
p(t∣w,β)=n=1∏NN(tn∣wTϕ(xn),β−1)=n=1∏N(2πβ)21exp{−2β(tn−wTϕ(xn))2}=(2πβ)2Nexp{−2βn=1∑N(tn−wTϕ(xn))2}=(2πβ)2Nexp{−2β(t−Φw)T(t−Φw)}=N(t∣Φw,β−1IN)
となる。注意点として、ΦはN×M行列、wはM次元の列ベクトルである。
ここで、問題文のヒントにしたがって
y→t,x→w,μ→0,Λ−1→α−1IM,A→Φ,L−1→β−1IN
と置き換えると、(2.115)式を使ってp(t∣α,β)を求めることができる。これより
p(t∣α,β)=N(t∣0, β−1IN+α−1ΦΦT)
と求まる。これについて対数をとって展開していくと((2.43)の対数表現にあてはめて)
lnp(t∣α,β)=−2Nln(2π)−21lnβ−1IN+α−1ΦΦT−21tT(β−1IN+α−1ΦΦT)−1t
となる。この第2項と第3項について計算していく。
まず第2項について
β−1IN+α−1ΦΦT=β−N⋅βNβ−1IN+α−1ΦΦT=β−NIN+βα−1ΦΦT(∵kN∣N∣=∣kN∣)=β−NIM+βα−1ΦTΦ(∵Appendix (C.14))=β−Nα−MαIM+βΦTΦ(∵kM∣M∣=∣kM∣)=β−Nα−M∣A∣(∵A=αIM+βΦTΦ(3.81))
が得られる。ここで、以下の定理を用いた。
任意のn×n行列Aと任意のスカラー値kに対して
∣kA∣=kn∣A∣
が成り立つ(統計のための行列代数P.217, 系13.2.4)
また対数を取った時の第3項についてはまず
−21tT(β−1IN+α−1ΦΦT)−1t=−21tT(β−1IN+Φ(α−1IM)ΦT)−1t
としてからWoodburyの公式
(A+BD−1C)−1=A−1−A−1B(D+CA−1B)−1CA−1(C.7)
に当てはめると
−21tT(β−1IN+α−1ΦΦT)−1t=−21tT[βIN−βINΦ(αIM+ΦT(βIN)Φ)−1ΦT(βIN)]t=−21tT[βIN−βΦ(αIM+βΦTΦ)−1ΦTβ]t=−2βtTt+2β2tTΦA−1ΦTt=−2βtTt+21mNTAmN(∵mN=βA−1ΦTt,(A−1)T=(AT)−1=A−1)=−21(βtTt−2mNTAmN+mNTAmN)=−21(βtTt−2mNTA(βA−1ΦTt)+mNT(αIM+βΦTΦ)mN)=−21(βtTt−2mNTΦTtβ+βmNTΦTΦmN+αmNTmN)=−21(β(t−ΦmN)T(t−ΦmN)+αmNTmN)=−2β∥t−ΦmN∥2−21αmNTmN=−E(mN)(∵ (3.82))
以上から
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)(3.86)
を導出することができた。
演習 3.17
ベイズ線形回帰モデルに対するエビデンス関数が
p(t∣α,β)=(2πβ)N/2(2πα)M/2∫exp{−E(w)}dw(3.78)
の形式で書けることを示せ.ただし,
E(w)=βED(w)+αEW(w)=2β∥t−Φw∥2+2αwTw(3.79)
で定義される.
※演習問題3.16よりも簡単。
p(t∣α,β)=∫p(t∣w,β)p(w∣α)dw(3.77)を求める。演習3.16で示した通り
p(t∣w,β)=(2πβ)2Nexp{−2β(t−Φw)T(t−Φw)}
p(w∣α)=N(w∣0,α−1IM)=(2πα)2Mexp{−21wT(α−1IM)−1w}=(2πα)2Mexp{−2αwTw}
なのでこれらを代入すると
p(t∣α,β)=∫(2πβ)N/2(2πα)M/2exp{−2β(t−Φw)T(t−Φw)−2αwTw}dw=(2πβ)N/2(2πα)M/2∫exp{−2β∣∣t−Φw∣∣2−2αwTw}dw
となる。これは(3.78),(3.79)の形になっている。
演習 3.18
wに関して平方完成することにより,
E(w)=βED(w)+αEW(w)=2β∥t−Φw∥2+2αwTw(3.79)
で定義されるベイズ線形回帰の誤差関数が
E(w)=E(mN)+21(w−mN)TA(w−mN)(3.80)
の形で書けることを示せ.
※誘導に従って平方完成して式変形していくだけ。A=αIM+βΦTΦ=(αIM+ΦT(βIM)Φ)と(3.84)式の定義mN=βA−1ΦTtを途中で導入する。
E(w)=2β∣∣t−Φw∥2+2αwTw=2β(tTt−2tTΦw+wTΦTΦw)+2αwTw=21(wTΦT(βIM)Φw+wT(αIM)w−2βtTΦw+βtTt)=21(wTAw−2βtTΦw+βtTt)=21(wTAw−2mNTATΦ−1Φw+βtTt)=21(wTAw−2mNTATw+mNTAmN)−21mNTAmN+2βtTt=21(w−mN)TA(w−mN)−21mNTAmN+2βtTt
ここで、−21mNTAmN+2βtTtについては演習問題3.16の後半の式変形と同じなので
−21mNTAmN+2βtTt=2αmNTmN+2β∥t−ΦmN∥2=E(mN)
となるので、結果として(3.80)式
E(w)=E(mN)+21(w−mN)TA(w−mN)(3.80)
が成立する。
演習 3.19
ベイズ線形回帰モデルのwに関する積分が
∫exp{−E(w)}dw=exp{−E(mN)}(2π)M/2∣A∣−1/2(3.85)
で与えられることを示せ.したがって,対数周辺尤度が
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)(3.86)
で与えられることを示せ.
(3.85)の積分が成立することを示す。
E(w)=E(mN)+21(w−mN)TA(w−mN)(3.80)
E(mN)=2β∥t−ΦmN∥2+2αmNTmN(3.82)
(3.80)式から(3.85)が成り立つことを示す。(3.82)よりE(mN)はwの関数ではないため積分の外に出すことができる。
∫exp{−E(w)}dw=exp{−E(mN)}∫exp{−21(w−mN)TA(w−mN)}dw
今wの次元はMであるので、正規化された多次元ガウス分布の形
(2π)M/21∣A∣−1/21∫exp{−21(w−mN)TA(w−mN)}dw=1
から正規化係数部分を取り出せば
∫exp{−E(w)}dw=exp{−E(mN)}(2π)M/2∣A∣−1/2(3.85)
(3.85)を示すことができる。
対数周辺尤度は
p(t∣α,β)=(2πβ)N/2(2πα)M/2∫exp{−E(w)}dw(3.78)
で表すことができ、(3.85)の結果と合わせると、
p(t∣α,β)=(2πβ)N/2(2πα)M/2exp{−E(mN)}(2π)M/2∣A∣−1/2
この等式に対数を取ってやると、
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)(3.86)
よって対数周辺尤度が(3.86)で与えられることが示された。
演習 3.20
対数周辺尤度関数
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)(3.86)
のαに関する最大化が再推定方程式
α=mNTmNγ,γ=i∑α+λiλi(3.92)
に帰着されることを示すのに必要なすべての段階を(3.86)から始めて確かめよ.
※3.5.2 エビデンス関数の最大化をなぞるだけ。
(3.86)式をαで偏微分する。そのために,まず次の固有ベクトル方程式を考える。
(βΦTΦ)ui=λiui(3.87)
また、\alpha \mathbf{I}_Mについての固有値は当然\alphaであり、(\alpha \mathbf{I}_M)\mathbf{u}_i = \alpha \mathbf{u}_iのように書けるので、この2式を足せば
\left(\alpha \mathbf{I}_M + \beta \mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)\mathbf{u}_i = (\alpha + \lambda_i)\mathbf{u}_i
となるので、\mathbf{A}は固有値\alpha + \lambda_iを持つことがわかる。ここで,(3.86)に含まれる\ln |\mathbf{A}|の項の\alphaに関する導関数を考えると
\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^M \left(\lambda_{i}+\alpha\right)=\frac{d}{d \alpha} \sum_{i=1}^M \ln \left(\lambda_{i}+\alpha\right)=\sum_{i=1}^M \frac{1}{\lambda_{i}+\alpha} \tag{3.88}
が得られる。これより,(3.86)の\alphaに関する停留点は
0 = \frac{M}{2\alpha}-\frac{1}{2}\mathbf{m}_N^{\mathrm T}\mathbf{m}_N-\frac{1}{2}\sum_{i=1}^M \frac{1}{\lambda_i+\alpha} \tag{3.89}
を満たす。2\alphaを掛け,式を整理すれば
\alpha\mathbf{m}_N^{\mathrm T}\mathbf{m}_N = M - \alpha \sum_{i=1}^M \frac{1}{\lambda_i + \alpha} = \sum_{i=1}^M \left( 1- \frac{1}{\lambda_i + \alpha} \right) = \sum_{i=1}^M \frac{\lambda_i}{\lambda_i + \alpha} \equiv \gamma
が得られる。よって
\alpha = \frac{\gamma}{\mathbf{m}_N^{\mathrm T}\mathbf{m}_N} \tag{3.92}
となる。
演習 3.21
(3.92)はエビデンスの枠組みにおける最適な\alphaの値である.この結果は,次の等式を使って導出することもできる.
\frac{d}{d \alpha} \ln |\mathbf{A}|=\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}
実対称行列\mathbf{A}の固有値展開,および\mathbf{A}の行列式とトレースの固有値表現の標準的結果(付録C参照)を用いて,この等式を証明せよ.そして,(3.117)を用いて,(3.86)から(3.92)を導け.
※(3.117)を証明する。付録Cも参照。
まず\mathbf{A} = \alpha \mathbf{I}_M + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}であり、\mathbf{A}\mathbf{u}_i = \lambda_i \mathbf{u}_iとなるような固有値\lambda_iと固有ベクトル\mathbf{u}_iが存在する。この2つはそれぞれ\alphaに依存する。
\mathbf{U} = (\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_M)とすると\mathbf{AU} = \mathbf{U\Lambda}と書くことができる。ここで\mathbf{\Lambda}は\lambda_iを対角成分とするM\times M対角行列である(付録Cの(C.38))。
実対称行列\mathbf{A}についての\mathbf{U}は正規直交行列となるようにとることができるので(C.29)〜(C.36)、\mathbf{U}^{\mathrm T}\mathbf{U}=\mathbf{I}, よって\mathbf{U}^{\mathrm T} = \mathbf{U}^{-1}となる。これより\mathbf{A} = \mathbf{U\Lambda U}^{-1}が得られ、
|\mathbf{A}| = |\mathbf{U}||\mathbf{\Lambda}||\mathbf{U}^{-1}|=|\mathbf{\Lambda}|=\prod_{i=1}^M \lambda_i
となることが分かる。
一方で
\operatorname{Tr}(\mathbf{A}) = \operatorname{Tr}(\mathbf{U\Lambda U}^{-1}) = \operatorname{Tr}(\mathbf{U}^{-1}\mathbf{U\Lambda}) = \operatorname{Tr}(\mathbf{\Lambda}) = \sum_{i=1}^M \lambda_i
である。
以上から(3.117)の左辺について変形すると
\frac{d}{d \alpha} \ln |\mathbf{A}|=\frac{d}{d \alpha} \ln \prod_{i=1}^{M} \lambda_{i}=\frac{d}{d \alpha} \sum_{i=1}^{M} \ln \lambda_{i}=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d}{d \alpha} \lambda_{i}
となる。続いて右辺について
\begin{aligned}
\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) &=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \frac{d}{d \alpha} \sum_{j=1}^{M} \lambda_{j} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right) \\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\left\{\sum_{j=1}^{M}\left(\frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}+\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right\}\right) \\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \sum_{j=1}^{M} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \left( \sum_{j=1}^{M} \left(\lambda_{j} \frac{d \mathbf{u}_{j}}{d \alpha} \mathbf{u}_{j}^{\mathrm T}+\lambda_j \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha}\right)\right) \right)\\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{j}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \mathbf{u}_{j}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} \sum_{j=1}^{M} \frac{2\lambda_{j}}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} \frac{d \mathbf{u}_{j}^{\mathrm T}}{d \alpha} \right) \quad \left(\because \sum_i \alpha_i\sum_j \beta_j = \sum_i \sum_j \alpha_i \beta_j \right)\\
&=\operatorname{Tr}\left(\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right)+\operatorname{Tr}\left(\sum_{i=1}^{M} 2 \mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right) \quad \left( \because \mathbf{u}_i^{\mathrm T}\mathbf{u}_j = \delta_{ij}より, i=jの項だけが残る \right)\\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\sum_{i=1}^{M}\left(\frac{d \mathbf{u}_{i}}{d \alpha} \mathbf{u}_{i}^{\mathrm T}+\mathbf{u}_{i} \frac{d \mathbf{u}_{i}^{\mathrm T}}{d \alpha}\right)\right) \\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \sum_{i=1}^{M} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm T}\right) \\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}+\operatorname{Tr}\left(\frac{d}{d \alpha} \mathbf{I}_{M}\right) \\
&=\sum_{i=1}^{M} \frac{1}{\lambda_{i}} \frac{d \lambda_{i}}{d \alpha}
\end{aligned}
以上の式変形から
\frac{d}{d \alpha} \ln |\mathbf{A}| = \operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}
が示された。
後半の(3.92)の導出は演習問題3.20とほぼ同じなので省略。
演習 3.22
対数周辺尤度関数
\ln p(\mathbf{t} \mid \alpha, \beta)=\frac{M}{2} \ln \alpha+\frac{N}{2} \ln \beta-E\left(\mathbf{m}_{N}\right)-\frac{1}{2} \ln |\mathbf{A}|-\frac{N}{2} \ln (2 \pi) \tag{3.86}
の\betaに関する最大化が再推定方程式
\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}
に帰着されることを示すのにすべての段階を,(3.86)から始めて確かめよ.
※P.168をなぞるだけ
(3.86)の\ln p(\mathsf{t}\mid \alpha, \beta)を\betaで偏微分する。準備として、\displaystyle \frac{\partial}{\partial \beta}\ln |\mathbf{A}|について、\betaと\lambda_iは比例するので\displaystyle \frac{\partial \lambda_i}{\partial \beta} = \frac{\lambda_i}{\beta}より
\frac{d}{d \beta} \ln |\mathbf{A}|=\frac{d}{d \beta} \sum_{i} \ln \left(\lambda_{i}+\alpha\right)=\frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\lambda_{i}+\alpha}=\frac{\gamma}{\beta}
が得られる。したがって, 周辺尤度の停留点は
0=\frac{N}{2 \beta}-\frac{1}{2} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2}-\frac{\gamma}{2 \beta} \tag{3.94}
これを整理すれば
\frac{1}{\beta}=\frac{1}{N-\gamma} \sum_{n=1}^{N}\left\{t_{n}-\mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right\}^{2} \tag{3.95}
が得られる。
\mathbf{m}_Nは\alpha, \betaに依存しているので本当はE(\mathbf{m}_N)も\betaで偏微分するともっと複雑な式になるが(\partial \mathbf{m}_N/\partial \betaの項を考える必要が出てくる)、P.168の\alphaのときのように繰り返し法で解くことを想定しているので\mathbf{m}_Nの\beta依存性は考慮しなくてよいことになっている。
演習 3.23
演習問題3.12で説明したモデルに対するデータの周辺確率(言い換えるとモデルエビデンス)が
p(\mathsf{t})=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}} \tag{3.118}
で与えられることを示せ.まず最初に\mathbf{w}に関して周辺化し,そして次に\betaに関して周辺化するとよい.
ベイズの定理と周辺確率から
p(t)=\iint p(\mathsf{t}, \mathbf{w}, \beta) d\mathbf{w} d \beta=\iint p(\mathsf{t} \mid \mathbf{w}, \beta) p(\mathbf{w}, \beta) d\mathbf{w} d\beta
と書くことができる。
演習問題3.12でやったように、p(\mathsf{t} \mid \mathbf{w}, \beta)は尤度関数、p(\mathbf{w},\beta)は共役事前分布となる(正規-ガンマ分布)。
p(\mathsf{t} \mid \mathbf{w}, \beta)は演習問題3.16でやったように\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)と表すことができる。よってこれらの式を使うと、
\begin{aligned}
p(\mathsf{t}) &=\iint \mathcal{N}\left(\mathsf{t} \mid \mathbf{\Phi} \mathbf{w}, \beta^{-1} \mathbf{I}_{N}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right) d \mathbf{w} d \beta \\
&=\iint\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \exp \left\{-\frac{\beta}{2}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})^{\mathrm{T}}(\mathsf{t}-\mathbf{\Phi} \mathbf{w})\right\}\left(\frac{\beta}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \exp \left\{-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right\}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\
&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}+ \mathbf{S}_{0}^{-1}\right) \mathbf{w}-2 \mathbf{w}^{\mathrm{T}}\left(\mathbf{\Phi}^{\mathrm{T}} \mathsf{t}+ \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta
\end{aligned}
演習問題3.12で求めた\mathbf{S}_{N}^{-1}=\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{S}_{0}^{-1}, \quad \mathbf{m}_{N}=\mathbf{S}_{N}\left(\mathbf{\Phi}^{\mathrm T} \mathsf{t}+\mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)(※教科書(3.50), (3.51)のものとは異なるので注意)を使ってこれを書き換えると
\begin{aligned}
p(\mathsf{t})&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left\{\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-2 \mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right\}\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\
&=\frac{b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{M+N}{2}}\left| \mathbf{S}_{0}\right|^{\frac{1}{2}}} \iint \beta^{\frac{M}{2}+\frac{N}{2}+a_{0}-1} \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] \exp \left[-\frac{\beta}{2}\left(\mathsf{t}^{\mathrm{T}} \mathsf{t}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right] \exp \left(-b_{0} \beta\right) d \mathbf{w} d \beta \\
\end{aligned}
そしてさらに演習問題3.12で求めた\displaystyle a_{N}=a_{0}+\frac{N}{2},\quad b_{N}=b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathsf{t}^{\mathrm{T}} \mathsf{t}\right)を使うと
\begin{aligned}
p(\mathsf{t}) &= \underbrace{\frac{\beta^{\frac{M}{2}}}{(2 \pi)^{\frac{M}{2}}|\mathbf{S}_N|^{\frac{1}{2}}} \int \exp \left[-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right] d \mathbf{w}}_{\text{Normal distribution, equal to 1}} \cdot \frac{\left|\mathbf{S}_{N}\right|^{\frac{1}{2}} b_{0}^{a_{0}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \underbrace{\int \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) d \beta}_{\text{Gamma distribution (not normalized)}} \\
&= \frac{b_{0}^{a_{0}}\left|\mathbf{S}_{N}\right|^{\frac{1}{2}}}{\Gamma\left(a_{0}\right)(2 \pi)^{\frac{N}{2}}\left|\mathbf{S}_{0}\right|^{\frac{1}{2}}} \frac{\Gamma\left(a_{N}\right)}{b_{N}^{a_{N}}} \\
&=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}}
\end{aligned}
以上から(3.118)式となることが示された。
演習 3.24
次の形のベイズの定理に事前,事後分布と尤度関数を代入して上記の(3.118)が成立することを示せ.
p(\mathsf{t})=\frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \tag{3.119}
(3.119)の分母は演習問題3.12の(3.113)のp(\mathbf{w}, \beta | \mathbf{t})=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right)で、分子のp(\mathsf{t} | \mathbf{w}, \beta)は演習問題3.16の\mathcal{N}(\mathsf{t}\mid \mathbf{\Phi}\mathbf{w},\beta^{-1}\mathbf{I}_N)で、p(\mathbf{w}, \beta)は\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) {\operatorname{Gam}}\left(\beta \mid a_{0}, b_{0}\right)で、それぞれ与えられる。これらを代入して展開する。まず分母について計算すると
\begin{aligned}
p(\mathbf{w}, \beta | \mathbf{t})&=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right) \\
&=\left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w} +\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right) \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{N}-1} \exp \left(-b_{N} \beta\right) \\
&= \left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{w}+\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}-\mathbf{w}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} - \mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{w}-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}+\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}\right)\right) \\ &\quad \ \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1} \exp \left(-\left(b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\mathbf{t}^{\mathrm{T}} \mathbf{t}\right)\right) \beta\right) \\
&=\left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{N}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)+\|\mathbf{t}-\Phi \mathbf{w}\|^{2}\right)\right) \Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1} \exp \left(-b_{0} \beta\right)
\end{aligned}
一方で分子は
\begin{aligned}
p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta) &= \left(\frac{\beta}{2 \pi}\right)^{N / 2} \exp \left(-\frac{\beta}{2}\|\mathbf{t}-\Phi \mathbf{w}\|^{2}\right) \left(\frac{\beta}{2 \pi}\right)^{M / 2}\left|\mathbf{S}_{0}\right|^{-1 / 2} \exp \left(-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right)\right) \\
&\quad\ \Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1} \exp \left(-b_{0} \beta\right)
\end{aligned}
よってこれらを用いて約分すると
\begin{aligned}
p(\mathsf{t}) &= \frac{p(\mathsf{t} | \mathbf{w}, \beta) p(\mathbf{w}, \beta)}{p(\mathbf{w}, \beta | \mathsf{t})} \\
&= \frac{\left(\frac{\beta}{2 \pi}\right)^{N / 2}\left|\mathbf{S}_{0}\right|^{-1 / 2}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}} \beta^{a_{0}-1}}{\left|\mathbf{S}_{N}\right|^{-1 / 2}\Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}} \beta^{a_{0}+N / 2-1}} \\
&= \frac{1}{(2\pi)^{N/2}}\frac{\left|\mathbf{S}_{0}\right|^{-1 / 2}\Gamma\left(a_{0}\right)^{-1} b_{0}^{a_{0}}}{\left|\mathbf{S}_{N}\right|^{-1 / 2}\Gamma\left(a_{N}\right)^{-1} b_{N}^{a_{N}}} \\
&=\frac{1}{(2 \pi)^{N / 2}} \frac{b_{0}^{a_{0}}}{b_{N}^{a_{N}}} \frac{\Gamma\left(a_{N}\right)}{\Gamma\left(a_{0}\right)} \frac{\left|\mathbf{S}_{N}\right|^{1 / 2}}{\left|\mathbf{S}_{0}\right|^{1 / 2}}
\end{aligned}
となり、(3.118)式が得られることが確認された。
Discussion
いつもYOSHITAKA先生の解答を写経しながらPRMLを独学している者です。
恐れながら、演習3.13回答のの22行目のSnの前にβ^-1、23行目と28行目のS0はS0^-1ではないかと思いますが、いかがでしょうか?
Choiko様、ご指摘ありがとうございました。式を見直し、ご指摘いただいた箇所周辺を修正しました。今後ともよろしくお願いいたします。
恐縮です!!YOSHITAKA先生の解答は大変分かりやすいです。最終章まで本ブログを愛読させていただきます。
また、Twitterフォローもありがとうございます。
引き続き、PRML頑張ります。
些末なことで誠に恐縮ですが、演習3.14の22行目のΦ^T Φ=Iは、Ψ^T Ψ=Iではないかと思いますが、いかがでしょうか?
その通りでした。修正を反映いたしました。
細かい点になりますが、演習問題3.19の13行目の1 /|A|^1/2は、|A|^1/2ではないかと思いますが、いかがでしょうか?
ご指摘ありがとうございました。そのままの形ではありませんが、等価な記述で修正致しました。
いつも大変お世話になっております。
あまり自信のない指摘となりますが、演習問題3.21の「続いて右辺について」の後に続く3行目において、一番右端のΣ記号の右にもう一つ()が必要かと思います。
また、6行目の第2項のTrの次のd/dαはΣ記号ではないかと思います。
ありがとうございます。たしかにその通りですので、修正いたしました。