はじめに
PRML解答例まとめを参照
演習 3.1
tanh関数とロジステイックシグモイド関数
σ(a)=1+exp(−a)1(3.6)
は次のように関係付けられることを示せ.
tanh(a)=2σ(2a)−1(3.100)
さらに,次の形のロジステイックシグモイド関数の線形結合
y(x,w)=w0+j=1∑Mwjσ(sx−μj)(3.101)
は次の形のtanh関数の線形結合
y(x,u)=u0+j=1∑Mujtanh(2sx−μj)(3.102)
と等価であることを示し,新しいパラメータ{u0,…,uM}ともとのパラメータ{w0,…,wM}を関係付ける式を求めよ.
双曲線関数sinhとcosh関数を使うと
sinha=2ea−e−a,cosha=2ea+e−a
であるから、
tanha=coshasinha=ea+e−aea−e−a
である。これと(3.100)式の右辺を計算すると
2σ(2a)−1=1+e−2a2−1=1+e−2a1−e−2a=ea+e−aea−e−a
となるので、tanha=2σ(2a)−1が示された。
また(3.100)の関係式からσ(a)=21{tanh(2a)+1}となるので、
w0+j=1∑Mwjσ(sx−μj)=w0+j=1∑M{2wjtanh(2sx−μj)+2wj}=w0+j=1∑M2wj+j=1∑M2wjtanh(2sx−μj)
これと(3.102)式の形を比較すれば
u0=w0+j=1∑M2wj,uj=2wj
と関係付けることができる。
演習 3.2
行列
Φ(ΦTΦ)−1ΦT(3.103)
は任意のベクトルvをΦの列ベクトルで張られる空間の上に正射影することを示せ.そしてこの結果を使って,最小二乗解
wML=(ΦTΦ)−1ΦTt(3.15)
は図3.2で示した多様体Sの上にベクトルtを正射影することに対応していることを示せ.

【前半】
この問題で線形空間(多様体)Sは行列Φのj番目の列ベクトルφjを基底としている。つまり、任意のスカラーxjを用いてj=1∑Mxjφjの形で書けるベクトルは線形空間Sに含まれる。
あるベクトルvの線形空間Sへの正射影とは、次の2つを満たすベクトルv′のことである。
-
ベクトルv′がS上に存在する。すなわちv′=j=1∑Mxjφj=Φxと書ける。
-
ベクトルv−v′が線形空間Sと直交する。すなわち任意のjについてφjT(v−v′)=0つまりΦT(v−v′)=0が成立する。
以上を踏まえて、まずベクトルvにΦ(ΦTΦ)−1ΦTを作用させたv′を考える。すなわち
v′=Φ(ΦTΦ)−1ΦTv=Φv~=j=1∑Mvj~φj
とする。ここでφjはΦのj番目の列ベクトルでv~≡(ΦTΦ)−1ΦTvとする。vj~はベクトルv~のj番目の要素である(スカラー)。これはφjについての線形結合となっているので、上の正射影の条件1を満たしている。
ちなみに
Φ=ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM−1(x1)ϕM−1(x2)⋮ϕM−1(xN)=(φ1 φ2 ⋯ φM)(3.16)
としたので番号は1つずつずれているけれど気にしないでOK。
次に正射影の条件2のためにv−v′とSの直交性を調べる。
ΦT(v−v′)=ΦT(I−Φ(ΦTΦ)−1ΦT)v=ΦTv−ΦTv=0
であるから、v−v′とSは直交していることが示された。以上条件1と2が成立しているので、v′はvのSへの正射影であることが示された。
【後半】
続いて、3.1.2節の流れからn番目の要素がy(xn,w)で与えられるN次元ベクトルyを定義すると、yの構成は
y=y(x1,w)⋮y(xn,w)=wTϕ(x1)⋮wTϕ(xn)=ϕ(x1)Tw⋮ϕ(xn)Tw=Φw
となっている。これと(3.15)からwML=(ΦTΦ)−1ΦTtを代入してみると
y=ΦwML=Φ(ΦTΦ)−1ΦTt
となる。ここで、この数式と【前半】の議論より、yがベクトルtの線形空間Sへの正射影であることは明らかになっている。したがって題意(最小二乗解yはデータベクトルtの部分空間S上への正射影に対応する)は示された。
統計のための行列代数(上)の第12章 射影と射影行列に詳しい議論が載っている。
演習 3.3
それぞれのデータ点tnに重み要素rn>0が割り当てられており,二乗和誤差関数が
ED(w)=21n=1∑Nrn{tn−wTϕ(xn)}2(3.104)
となるデータ集合を考える.このとき,この誤差関数を最小にする解w∗についての式を求めよ.また,(i)ノイズの分散がデータに依存する場合,(ii)データ点に重複がある場合に照らして,それぞれ重み付き二乗和誤差関数の解釈を与えよ.
誤差関数を最小にする解を求めたいので、(3.104)式をwで微分する。その前に(3.104)式を行列形式で書き直したい。
R=diag(r1,r2,…,rn)(つまり対角成分がr1,r2,…,rnで残りが0の行列)とすると、(3.104)式は次のように書ける。
ED(w)=21n=1∑Nrn{tn−wTϕ(xn)}2=21⎩⎨⎧t1⋮tn−(ϕ(x1),⋯,ϕ(xn))w1⋮wn⎭⎬⎫TR⎩⎨⎧t1⋮tn−(ϕ(x1),⋯,ϕ(xn))w1⋮wn⎭⎬⎫=21(t−Φw)TR(t−Φw)
wで微分すると
∂w∂ED∴w∗=21{−2ΦTR(t−Φw)}(∵∂s∂(x−As)TW(x−As)=−2ATW(x−As), if Wis symmetric.)=−ΦTR(t−Φw)=0ΦTRt=ΦTRΦw∗=(ΦTRΦ)−1ΦTRt
なお行列の微分には https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf の(84)の公式を使った。また、こうして得られたw∗は単位行列R=Iとすれば(3.15)の正規方程式と一致する。
- ノイズの分散がデータに依存する場合というのは(3.8)において全データの分散の逆数(精度)がβで一定ではなく、データごとにynと変化することを意味する。このとき(3.8)−(3.12)の導出に沿って対数尤度関数をとると
lnp(t∣x,w,y)=n=1∑NlnN(tn∣wTϕ(xn),yn−1)=n=1∑Nln{(2π)1/2yn1/2exp(−2yn(tn−wTϕ(xn))2)}=21n=1∑Nlnyn−2Nln(2π)−21n=1∑Nyn{tn−wTϕ(xn)}2
となる。ここでyn=rnとすればまさに重み付き二乗和誤差関数として(3.104)が現れていることがわかる。
- データ点に重複がある場合、そのデータ点についての実効的な数として見なすことができる。尤度関数lnp(t∣w,β)の最大化は二乗和誤差関数ED(w)の最小化と等価であることを考えれば、例えばN個の点のうち(x1,t1),(x2,t2)のみが同じだった場合にr1=1,r2=0とおけば実質1つカウントとして見なせるし、そうしないこともできる……ってことかな?
演習 3.4
次の形の線形モデル
y(x,w)=w0+i=1∑Dwixi(3.105)
と二乗和誤差関数
ED(w)=21n=1∑N{y(xn,w)−tn}2(3.106)
を考える.平均0,分散σ2のガウスノイズϵiが独立にそれぞれの入力変数xiに加わるものとする.E[ϵi]=0とE[ϵiϵj]=δijσ2の2つの性質を用いて,EDのノイズ分布に関する平均を最小にすることは,ノイズのない入力変数に対する二乗和誤差と荷重減衰の正則化項の和を最小にすることと等価であることを示せ.ただし,正則化項にバイアスパラメータw0は含めない.
※ 線形モデルの入力ベクトルxの各次元xiにノイズϵiが加わったときの二乗和誤差について、その二乗和誤差のノイズϵiについての期待値を取ったものを最小化することが、wの正則化項を考慮した最小二乗法と同じ形式になることを示します。
ガウスノイズϵiが入力変数xiに加えられるので
y~(xn,w)=w0+i=1∑Dwni(xni+ϵni)=y(xn,w)+i=1∑Dwiϵni
となる。これの二乗和誤差関数は
E~D(w)=21n=1∑N{y~(xn,w)−tn}2=21n=1∑N{y~n2−2y~ntn+tn}2=21n=1∑N⎩⎨⎧yn2+2yni=1∑Dwiϵni+(i=1∑Dwiϵni)2−2yntn−2i=1∑Dwiϵni+tn2⎭⎬⎫⋯(∗)
と展開できる。ここでE~D(w)についての期待値E[E~D(w)]をとるとE[ϵi]=0より(∗)の第2項と第5項は0になる。また、第3項についてはE[ϵiϵj]=δijσ2から
E(i=1∑Dwiϵni)2=i=1∑Dwi2σ2
となるので
E[E~D(w)]=ED(w)+21i=1∑Dwi2σ2
と表せる。さらに(3.25)のような重みベクトルの二乗和EW(w)=21wTwを用いると
E[E~D(w)]=ED(w)+2σ2wTw
となる。これは、ノイズのない入力変数に対する二乗和誤差ED(w)とλ=σ2にしたときの荷重減衰の正則化項の和EW(w)の和の形になっている。したがって題意が示された。
演習 3.5
付録Eに示したラグランジュ未定乗数法を用いて,正則化誤差関数
21n=1∑N{tn−wTϕ(xn)}2+2λj=1∑M∣wj∣q(3.29)
の最小化と,正則化されていない二乗和誤差
ED(w)=21n=1∑N{tn−wTϕ(xn)}2(3.12)
の制約条件
j=1∑M∣wj∣q≤η(3.30)
下での最小化が等価であることを示せ.そして,パラメータηとλの関係を議論せよ.
※ ヒントとしてラグランジュの未定乗数法を使うと書いてあるのですぐに導けるが、このヒントがないとなぜ等価なのかわかりにくいかもしれない、という問題。
制約条件(3.30)が不等式なので付録Eのラグランジュ未定乗数法の不等式制約の場合を参考にする。
(3.30)を変形すると21(j=1∑M∣wj∣q−η)≤0である。(後で(3.29)に合わせるために21をわざとつけている)
ラグランジュの未定乗数法を用いると
L(w,λ)=21j=1∑M{tn−wTϕ(xn)}2+2λ(j=1∑M∣wj∣q−η)=21j=1∑M{tn−wTϕ(xn)}2+2λj=1∑M∣wj∣q−2λη
これについて∂w∂(−2λη)=0なので、L(w,λ)をwについて最小化させることと、(3.29)式のwについての最小化は等価であることが示された。
またラグランジュの未定乗数法の不等式制約におけるKarush-Kuhn-Tucker条件は
⎩⎨⎧21(∑j=1M∣wj∣q−η)≤0λ≥02λ(∑j=1M∣wj∣q−η)=0
となる。最後の等式がL(w,λ)をwについて最小化させたw∗で成立する必要がある。
すなわち、w∗でη=j=1∑M∣wj∣qとなる。これより、qは正則化項の形状(lasso, ridge...)を示している。λは正則化項の大きさを表している。
演習 3.6
ガウス分布に従う複数の目標変数tを持つ次の形の線形基底関数モデルを考える.
p(t∣W,Σ)=N(t∣y(x,W),Σ)(3.107)
ただし,
y(x,W)=WTϕ(x)(3.108)
である.入力基底ベクトルのϕ(xn) (n=1,…,N)とそれに対応する目標ベクトルtnが訓練データ集合として与えられるとき,パラメータ行列Wの最尤推定解WMLのそれぞれの列が,等方性のノイズ分布に対する解の
wML=(ΦTΦ)−1ΦTt(3.15)
の形の式で与えられることを示せ.これは共分散行列Σにはよらないことに注意せよ.さらに,Σの最尤推定解が
Σ=N1n=1∑N(tn−WMLTϕ(xn))(tn−WMLTϕ(xn))T(3.109)
で与えられることを示せ.
※ 3.1.5 出力変数が多次元の場合 を参考にしてすすめる。また、途中の行列の微分については付録だけでは足りないので https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf を参考にする。
y(X,W)=WTϕ(x)について、yはK次元列ベクトル、WはM×Kのパラメータ行列、ϕ(x)はϕj(x)をj番目の要素に持つM次元の列ベクトルである。また、n番目の観測値tnはK次元の列ベクトル、観測値の集合t1,t2,⋯tNをまとめてn番目の行がtnTとなるN×K行列Tとする。
(3.107)について最尤推定解を得るために対数尤度関数を考えると
lnp(t∣W,Σ)=lnn=1∏NN(tn∣WTϕ(x),Σ)=n=1∑NlnN(tn∣WTϕ(x),Σ)=n=1∑Nln{(2π)2K1∣Σ∣211exp(−21(tn−WTϕ(xn))TΣ−1(tn−WTϕ(xn)))}=−2NKln(2π)−2Nln∣Σ∣−21n=1∑N(tn−WTϕ(xn))TΣ−1(tn−WTϕ(xn))
WMLを求めるためにWについて偏微分すると
∂W∂lnp(t∣W,Σ)=−21n=1∑N∂W∂{(tn−WTϕ(xn))TΣ−1(tn−WTϕ(xn))}=−21n=1∑N(Σ−1+(Σ−1)T)(tn−WTϕ(xn))(−ϕ(xn)T)(∵∂X∂(Xb+c)TD(Xb+c)=(D+DT)(Xb+c)bT)=n=1∑NΣ−1(tn−WTϕ(xn))ϕ(xn)T(∵Σ−1=(Σ−1)T)
これを0とすると
n=1∑NΣ−1tnϕ(xn)T=n=1∑NΣ−1(WMLTϕ(xn))ϕ(xn)T
両辺にΣをかけると
n=1∑Ntnϕ(xn)T=WMLTn=1∑Nϕ(xn)ϕ(xn)T
これは行列形式で書くと
(t1,t2⋯,tn)ϕ(x1)Tϕ(x2)T⋮ϕ(xN)T=WMLT(ϕ(x1),ϕ(x2),…,ϕ(xN))ϕ(x1)Tϕ(x2)T⋮ϕ(xN)T
と書き直せる。ここで、計画行列が
Φ=ϕ(x1)Tϕ(x2)T⋮ϕ(xN)T,ΦT=(ϕ(x1),ϕ(x2),…,ϕ(xN))
のように書けることを考えると、
TTΦ=WMLTΦTΦ
と書き表せる。これよりWMLT=TTΦ(ΦTΦ)−1なので、WMLを求めるよう変換していくと
WML=(TTΦ(ΦTΦ)−1)T=((ΦTΦ)−1)T(TTΦ)T(∵(AB)T=BTAT)=(ΦTΦ)−1ΦTT
これは(3.15)式のような形で求まっている。またΣによらず決まることが分かる。
Σについての最尤推定解は演習問題2.34と同じ手続きで求めることができるので省略。
演習 3.7
mNとSNがそれぞれ
mN=SN(S0−1m0+βΦTt)(3.50)
SN−1=S0−1+βΦTΦ(3.51)
で定義される線形基底関数モデルを考える.平方完成を用いて,このモデルのパラメータwの事後分布が
p(w∣t)=N(w∣mN,SN)(3.49)
で与えられることを確かめよ.
(事後分布)∝(尤度関数)×(事前分布)の関係式、すなわちp(w∣t)∝p(t∣w)p(w)を使って計算する。正規化係数部分は吸収されるので、指数部分だけに着目する。
p(w∣t)=n=1∏NN(tn∣wTϕ(xn))N(w∣m0,S0)∝(n=1∏Nexp[−21{tn−wTϕ(xn)}2β])exp[−21(w−m0)TS0−1(w−m0)]=exp[−21{βn=1∑N(tn−wTϕ(xn)))2+(w−m0)TS0−1(w−m0)}]
ここで、指数部分のみ着目すると
==βn=1∑N(tn−wTϕ(xn))2+(w−m0)TS0−1(w−m0)βt1−wTϕ(x1)⋮tN−wTϕ(xN)Tt1−wTϕ(x1)⋮tN−wTϕ(xN)+(w−m0)TS0−1(w−m0)βt1−ϕ(x1)Tw⋮tN−ϕ(xN)TwTt1−ϕ(x1)Tw⋮tN−ϕ(xN)Tw+(w−m0)TS0−1(w−m0)(∵aTb=bTa)
ここで、(3.16)式の計画行列がΦ=ϕ(x1)Tϕ(x2)T⋮ϕ(xN)Tと書けることを利用すると、上の式は以下のように変形できる。
=β(t−Φw)T(t−Φw)+(w−m0)TS0−1(w−m0)=β(wTΦTΦw−wTΦTt−tTΦw)+wTS0−1w−wTS0−1m0−m0TS0−1w+const.=wT(S0−1+βΦTΦ)w−wT(S0−1m0+βΦTt)−(S0−1m0+βΦTt)Tw+const.
S0は共分散なので対称行列である。この逆行列も対称行列である。よって(S0−1)T=S0−1となることに注意する。
一方で、事後分布の形N(w∣mN,SN)の指数部分を同様に展開すると
wTSN−1w−wT(SN−1mN)−(SN−1mN)Tw+const.
となる。これらの係数を比較すれば
SN−1mN=S0−1+βΦTΦ=SN(S0−1m0+βΦTt)
すなわち(3.50), (3.51)式が導けた。
演習 3.8
3.1節の線形基底関数モデルを考える.そして,すでにN個のデータ点が観測され,wの事後分布が
p(w∣t)=N(w∣mN,SN)(3.49)
で与えられるとする.この事後分布は次に観測されるデータの事前確率とみなすことができる.追加のデータ点(xN+1,tN+1)を考え,指数関数の中で平方完成することにより,事後確率が再び(3.49)の形式で与えられ,SNをSN+1に,mNをmN+1にそれぞれ置き換えたものになることを示せ.
事後分布は尤度関数と事前分布の掛け算に比例するので
p(w∣t)∝p(t∣w)⋅p(w)
が満たされることがわかる.また事前分布はp(w)=N(w∣mN,SN)で、尤度関数がp(tN+1∣w)=∏n=1NN(tN+1∣wTϕN+1,β−1)なので、
p(w∣t)p(tN+1∣w)⋅p(w)∝p(tN+1∣w)⋅p(w)∝exp(−21(w−mN)TSN−1(w−mN)−2β(tN+1−wTϕN+1)2)
となる(ここで、ϕN+1=ϕ(xN+1)と表記している).指数部分だけを見ていくと
(w−mN)TSN−1(w−mN)+β(tN+1−wTϕN+1)2=wTSN−1w−2wTSN−1mN+βwTϕN+1TϕN+1w−2βwTϕN+1tN+1+const.=wT(SN−1+βϕN+1ϕN+1T)w−2wT(SN−1mN+βϕN+1tN+1)+const.
となるので、演習問題3.7の最後の部分と比較すれば
∴SN+1−1mN+1=SN−1+βϕN+1ϕN+1T=SN+1(SN−1mN+βϕN+1tN+1)
となって、題意は示された.
演習 3.9
上記の問題を平方完成ではなく,線形ガウスモデルの一般的な結果
p(x∣y)=N(x∣Σ{ATL(y−b)+Λμ},Σ)(2.116)
を用いて示せ.
p(x)=N(x∣μ,Λ−1)(2.112)
p(y∣x)=N(y∣Ax+b,L−1)(2.114)
p(x∣y)=N(x∣Σ{ATL(y−b)+Λμ},Σ)(Σ=(Λ+ATLA)−1)(2.116)
を使って、演習3.8をもう一度解ける、観察すればw↔x,tN+1↔yで関係付けることができるので
p(w)p(tN+1∣w)=N(w∣mN,SN)=N(tN+1∣wTϕN+1,β−1)
と比較すれば、さらに各パラメータを次のように決めることができる.
μΛAbL=mN=SN−1=ϕN+1T=0=β
(2.116)に代入すれば
p(w∣tN+1)SN+1−1mN+1=N(w∣mN+1,SN+1)=Σ−1=Λ+ATLA=SN−1+βϕN+1TϕN+1=Σ{ATL(y−b)+Λμ}=SN+1(SN−1mN+βϕN+1tN+1)
となって、題意は示された.
演習 3.10
p(y)=N(y∣Aμ+b,L−1+AΛ−1AT)(2.115)
の結果を用いて
p(t∣t,α,β)=∫p(t∣w,β)p(w∣t,α,β)dw(3.57)
の積分を評価し,ベイズ線形回帰モデルの予測分布が
p(t∣x,t,α,β)=N(t∣mNTϕ(x),σN2(x))(3.58)
で与えられることを確かめよ.ただし,入力に依存する分散は
σN2(x)=β1+ϕ(x)TSNϕ(x)(3.59)
で与えられる.
(3.57)の条件付き分布と事後分布は, それぞれ以下の式で表される。
p(t∣w,β)=N(t∣wTϕ(x),β−1)(3.3, 3.8)
p(w∣t,α,β)=N(w∣mN,SN)(3.49)
ここで, (2.115)の式は,
p \left (\mathbf x \right ) = \mathcal{N} \left( \boldsymbol{\mu},\mathbf{\Lambda}^{-1} \right) \tag{2.113}
p \left (\mathbf y \mid \mathbf x \right ) = \mathcal{N} \left (\mathbf{y} \mid \mathbf{A} \mathbf x + \mathbf b,\mathbf L^{-1} \right ) \tag{2.114}
が与えられた際の周辺分布だったことに注意して, (2.113)から(2.115)について,
\mathbf y \rightarrow \textit t, \quad \mathbf x \rightarrow \mathbf w, \quad \boldsymbol \mu \rightarrow \mathbf m_N, \quad \mathbf{\Lambda}^{-1} \rightarrow \mathbf S_N,\quad \mathbf A \rightarrow \boldsymbol \phi (\mathbf x)^\textrm T,\quad \mathbf L^{-1}→\beta^{-1}
と置き換えると, (3.57)を評価できる。
したがって, (2.115)にそれぞれを代入すると,
p \left (t \mid \mathbf x,\mathbf t,\alpha,\beta \right ) = \mathcal { N } \left (t \mid \mathbf m^\textrm T_N \boldsymbol \phi (\mathbf x),\sigma ^2_N (\mathbf x) \right ) \tag{3.58}
と求まる。ここで, 入力に依存する分散は
\sigma ^ 2 _ N (\mathbf x) = \frac{1}{\beta}+\boldsymbol \phi (\mathbf x)^\textrm T \mathbf S_N \boldsymbol \phi (\mathbf x) \tag{3.59}
である。
演習 3.11
データ集合のサイズが増えるにつれて,モデルパラメータの事後分布に関する不確かさが減少することについて説明した.次の行列の公式(付録C参照)
\left(\mathbf{M}+\mathbf{vv}^{\mathrm{T}}\right)^{-1}=\mathbf{M}^{-1}-\frac{\left(\mathbf{M}^{-1} \mathbf{v}\right)\left(\mathbf{v}^{\mathrm{T}} \mathbf{M}^{-1}\right)}{1+\mathbf{v}^{\mathrm{T}} \mathbf{M}^{-1} \mathbf{v}} \tag{3.110}
を用いて,
\sigma_{N}^{2}(\mathbf{x})=\frac{1}{\beta}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}(\mathbf{x}) \tag{3.59}
の線形回帰モデルに関する不確かさ\sigma_{N}^{2}(\mathbf{x})が
\sigma_{N+1}^{2}(\mathbf{x}) \leq \sigma_{N}^{2}(\mathbf{x}) \tag{3.111}
を満たすことを示せ.
演習問題3.8で示したように、新しい点(\mathbf{x}_{N+1}, t_{N+1})が与えられたとき、\mathcal{N}(\mathbf{w}\mid \mathbf{m}_N, \mathbf{S}_N)に対する事後分布は\mathcal{N}(\mathbf{w}\mid \mathbf{m}_{N+1}, \mathbf{S}_{N+1})と書け、
\begin{aligned}
\mathbf{S}_{N+1}&=\left(\mathbf{S}_{N}^{-1}+\beta \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{\mathrm{T}}\right)^{-1} \\
\mathbf{m}_{N+1}&=\mathbf{S}_{N+1}\left(\mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\beta \boldsymbol{\phi}_{N+1} t_{N+1}\right)
\end{aligned}
で与えられる(\boldsymbol{\phi}_{N+1} = \boldsymbol{\phi}(\mathbf{x}_{N+1})である)。
問いとしては\sigma_N^{2}(\mathbf{x})-\sigma_{N+1}^{2}(\mathbf{x}) \ge 0であることを証明すれば良い。これはまず
\begin{aligned}
\sigma_N^{2}(\mathbf{x})-\sigma_{N+1}^{2}(\mathbf{x}) &= \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\mathbf{S}_N\boldsymbol{\phi}(\mathbf{x}) - \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\mathbf{S}_{N+1}\boldsymbol{\phi}(\mathbf{x}) \\
&= \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}(\mathbf{S}_{N} - \mathbf{S}_{N+1})\boldsymbol{\phi}(\mathbf{x})
\end{aligned}
であるから、\mathbf{S}_{N} - \mathbf{S}_{N+1}を計算すると
\begin{aligned}
\mathbf{S}_{N} - \mathbf{S}_{N+1} &= \mathbf{S}_{N} - \left(\mathbf{S}_{N}^{-1} + \beta \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{\mathrm{T}}\right)^{-1} \\
&= \mathbf{S}_{N} - \left(\mathbf{S}_{N}^{-1} + \boldsymbol{\psi}_{N+1} \boldsymbol{\psi}_{N+1}^{\mathrm{T}} \right) \quad (\boldsymbol{\psi}_{N+1} = \beta^{1/2} \boldsymbol{\phi}_{N+1})\\
&=\frac{\left(\mathbf{S}_{N} \boldsymbol{\psi}_{N+1}\right)\left(\boldsymbol{\psi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N}\right)}{1+ \boldsymbol{\psi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\psi}_{N+1}} \\
&=\frac{\beta \mathbf{S}_{N} \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N}}{1+\beta \boldsymbol{\phi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}_{N+1}}
\end{aligned}
これより
\begin{aligned}
\sigma_N^{2}(\mathbf{x})-\sigma_{N+1}^{2}(\mathbf{x}) &= \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\mathbf{S}_N\boldsymbol{\phi}(\mathbf{x}) - \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\mathbf{S}_{N+1}\boldsymbol{\phi}(\mathbf{x}) \\
&= \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}(\mathbf{S}_{N} - \mathbf{S}_{N+1})\boldsymbol{\phi}(\mathbf{x}) \\
&= \frac{\beta \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\mathbf{S}_{N} \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}(\mathbf{x})}{1+\beta \boldsymbol{\phi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}_{N+1}} \\
&= \frac{\beta \left\| \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\mathbf{S}_{N} \boldsymbol{\phi}_{N+1} \right\|^2}{1+\beta \boldsymbol{\phi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}_{N+1}}
\end{aligned}
ここで、\mathbf{S}_{N}は実対称行列であり((3.54)式から \mathbf{S}_{N} = \left( \alpha \mathbf{I} + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)^{-1})、このため正定値行列である(後述)。すなわち任意のベクトル\mathbf{x}において\mathbf{x}^{\mathrm T}\mathbf{S}_{N}\mathbf{x} \gt 0が成立するため、\boldsymbol{\phi}_{N+1}^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}_{N+1} \gt 0となる(また当然ながら\beta \gt 0)。これより、
\sigma_{N+1}^{2}(\mathbf{x}) \leq \sigma_{N}^{2}(\mathbf{x}) \tag{3.111}
が証明された。
※ 最後の正定値行列であることについて、定義として、任意の零ベクトルでないベクトル\mathbf{x}について行列\mathbf{P}が
\mathbf{x}^{\mathrm T}\mathbf{Px} \gt 0
を満たすならば、\mathbf{P}は正定値行列である。また、その逆行列\mathbf{P}^{-1}も正定値行列である。
そこで\mathbf{S}_{N} = \left( \alpha \mathbf{I} + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi} \right)^{-1}について、逆行列\mathbf{S}_{N}^{-1} = \alpha \mathbf{I} + \beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi}が正定値行列であることを示す。
まず\alpha \mathbf{I}は正定値行列である(\because \mathbf{x}^{\mathrm T}(\alpha \mathbf{I})\mathbf{x} = \alpha \mathbf{x}^{\mathrm T}\mathbf{x} = \alpha \|\mathbf{x}\|^{2} \gt 0)。また、\mathbf{x}^{\mathrm T}(\beta\mathbf{\Phi}^{\mathrm T}\mathbf{\Phi})\mathbf{x} = \beta \|\mathbf{\Phi x}\|^2 \ge 0が成り立つ(これは半正定値)。したがって線形結合である\mathbf{S}_N^{-1}も正定値行列であるので、\mathbf{S}_Nが正定値行列であることが示された。
むしろ等号成立条件がわからないけど
演習 3.12
2.3.6節で,平均および精度(分散の逆数)がともに未知のガウス分布に対応する共役事前分布は正規ガンマ分布であることを述べた.この性質は,線形回帰モデルの条件付きガウス分布p(t|\mathbf{x}, \mathbf{w}, \beta)の場合にも成り立つ.尤度関数が
p(\mathsf{t} \mid \mathbf{X}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) \tag{3.10}
で与えられるとき,\mathbf{w}と\betaの共役事前分布が
p(\mathbf{w}, \beta)=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) \operatorname{Gam}\left(\beta | a_{0}, b_{0}\right) \tag{3.112}
で与えられることを示せ.さらに,対応する事後分布が同様に
p(\mathbf{w}, \beta | \mathbf{t})=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{N}, \beta^{-1} \mathbf{S}_{N}\right) \operatorname{Gam}\left(\beta | a_{N}, b_{N}\right) \tag{3.113}
の関数形で与えられることを示し,パラメータ\mathbf{m}_{N}, \mathbf{S}_{N}, a_N, b_Nについての式を求めよ.
(事後確率)\propto(尤度関数)\times(共役事前分布)なので、p(\mathbf{w},\beta\mid \mathsf{t},\mathbf{x}) \propto p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)p(\mathbf{w},\beta)である。
実際には入力変数\mathbf{x}をモデル化しようとしていないので、\mathbf{x}は条件としてしか現れないのでp(\mathbf{w},\beta\mid t)\propto p(\mathsf{t}\mid \mathbf{w},\beta)p(\mathbf{w},\beta)である。
P.98を読むことで、この共役事前分布も正規-ガンマ関数として書けることがわかる。よって、p(\mathbf{w}, \beta)=\mathcal{N}\left(\mathbf{w} | \mathbf{m}_{0}, \beta^{-1} \mathbf{S}_{0}\right) \operatorname{Gam}\left(\beta | a_{0}, b_{0}\right)の形で書くことができる。
本当にこれで示せたことになるのか?感はある
これが与えられているとき、対数で事後分布を考えると
\ln p(\mathbf{w},\beta\mid \mathsf{t}) = \ln p(\mathsf{t}\mid \mathbf{x},\mathbf{w},\beta) + \ln p(\mathbf{w},\beta) + \textrm{const.}
と書くことができる。これを展開すると
\begin{aligned}
\ln p(\mathbf{w}, \beta \mid \mathbf{t})=& \sum_{n=1}^{N} \ln p\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right), \beta^{-1}\right) + \ln p(\mathbf{w}, \beta)\\
=& \frac{M}{2} \ln \beta-\frac{1}{2} \ln \left|\mathbf{S}_{0}\right|-\frac{\beta}{2}\left(\mathbf{w}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{S}_{0}^{-1}\left(\mathbf{w}-\mathbf{m}_{0}\right) - b_{0} \beta+\left(a_{0}-1\right) \ln \beta \\
+& \frac{N}{2} \ln \beta-\frac{\beta}{2} \sum_{n=1}^{N}\left\{\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)-t_{n}\right\}^{2}+\text{const.}
\end{aligned} \tag{*}
この事後分布も正規-ガンマ分布の形で分解できることが示されている。すなわちp(\mathbf{w},\beta\mid \mathsf{t}) = p(\mathbf{w} \mid \beta, \mathsf{t})p(\beta\mid \mathsf{t})と分解でき、\mathbf{w}に依存するp(\mathbf{w} \mid \beta, \mathsf{t})がガウス分布の形\mathcal{N}(\mathbf{w}\mid \mathbf{m}_N,\beta^{-1}\mathbf{S}_N)になるはずである。
(*)式を\mathbf{w}についての関数としてまとめ直すと、\displaystyle \sum_{n=1}^{N}\left\{\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)-t_{n}\right\}^{2} = (\mathbf{\Phi}\mathbf{w} - \mathsf{t})^{\mathrm T}(\mathbf{\Phi}\mathbf{w} - \mathsf{t})を利用して
\ln p(\mathbf{w} \mid \beta, \mathbf{t})=-\frac{\beta}{2} \mathbf{w}^{\mathrm{T}}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}+\mathbf{S}_{0}^{-1}\right] \mathbf{w}+\mathbf{w}^{\mathrm{T}}\left[\beta \mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right]+\mathrm{const.}
となる。よって、\mathcal{N}(\mathbf{w}\mid \mathbf{m}_N, \mathbf{S}_N)と比較すると(P.84のように\mathbf{S}_Nから求める)、
\begin{aligned}
\mathbf{S}_{N}^{-1} &=\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} + \mathbf{S}_{0}^{-1} \\
\mathbf{m}_{N} &=\mathbf{S}_{N}\left[\mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\mathbf{\Phi}^{\mathrm{T}} \mathsf{t}\right]
\end{aligned}
となる((3.50), (3.51)と似ているようで異なる)。
次に、p(\beta\mid \mathsf{t})がガンマ分布の形になるはずなので(*)の\betaに依存する残りの項をまとめる。ただし、\frac{M}{2}\ln \betaは上記のガウス分布の正規化定数に相当するので\ln p(\beta\mid \mathsf{t})には現れなくなることに注意する。
\begin{aligned}
\ln p(\beta \mid \mathbf{t}) &= \ln p(\mathbf{w},\beta\mid \mathsf{t}) - \ln p(\mathbf{w}\mid \beta, \mathsf{t})
\\ &= -\frac{\beta}{2} \mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\frac{\beta}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N} + \frac{N}{2} \ln \beta-b_{0} \beta+\left(a_{0}-1\right) \ln \beta-\frac{\beta}{2} \sum_{n=1}^{N} t_{n}^{2}+\mathrm{const.} \\
&=\left(\frac{N}{2}+a_0 -1\right)\ln \beta - \frac{1}{2} \left( \mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} - \mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N} + \sum_{n=1}^{N} t_{n}^{2} \right)\beta - b_0\beta + \mathrm{const.}
\end{aligned}
これがガンマ分布の対数形\ln \operatorname{Gam}(\beta\mid a_N, b_N) = (a_N -1)\ln \beta - b_N \beta + \mathrm{const.}の式と同形になるべきなので、両式を比較することで
\begin{aligned}
a_{N}&=a_{0}+\frac{N}{2} \\
b_{N}&=b_{0}+\frac{1}{2}\left(\mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0}-\mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\sum_{n=1}^{N} t_{n}^{2}\right)
\end{aligned}
が得られる。
Discussion