はじめに
PRML解答例まとめを参照
演習 2.21
大きさがD×Dの実対称行列の独立なパラメータは、D(D+1)/2個であることを示せ.
大きさがD×Dの実対称行列の全成分の個数は当然D2個である。このうち、対角成分のD個を除いて残りのパラメータ(非対角成分)は対角成分に対して対称な値になっていなければならないので、そのパラメータの自由度は2D2−D個である。これにD個を足して
2D2−D+D=2D(D+1)
つまり独立なパラメータは2D(D+1)個である。
演習 2.22
対称行列の逆行列も対称であることを示せ.
ある任意の対称行列Aがあり、逆行列が存在する場合それをA−1とすると、
AA−1=I
となる(Iは単位行列)。両辺の転置を取り、Aは対称行列なのでA=ATであることに注意すると
(AA−1)T=(A−1)TAT=(A−1)TA=I
ここで第3項について、逆行列の定義から
(A−1)T=A−1
とならなければならないことがわかる。これは対称行列の逆行列A−1も対称行列となっていることを表している。
演習 2.23
Σ=i=1∑DλiuiuiT(2.48)
の固有ベクトル展開を用いて座標系を対角化することで,マハラノビス距離Δが定数になる超楕円体の内部の体積が,
VD∣Σ∣1/2ΔD(2.286)
になることを示せ.ただし,VDはD次元単位球の体積で,マハラノビス距離は (2.44)で定義される.
※ PRML第2章 2.3 ガウス分布の議論にあるガウス分布の幾何的な形状についての理解を深めるための問題です。
※ そもそも超楕円体って何?って調べてみても意外とGoogleでヒットしないのですが、以下の定義を使います。
楕円体は,2次曲面の一種です.2次元において,次の方程式:
a2x2+b2y2=1
で表現される図形を楕円と呼びますが,これのn次元へ拡張したものと捉えて問題ありません.より厳密な呼び分けとしては,n=3のときのみ楕円体と呼び,n≥4のとき超楕円体と呼ぶ場合もあるようです.
http://ssr-yuki.hatenablog.com/entry/2020/04/26/230647
マハラノビス距離の2乗Δ2=(x−μ)TΣ−1(x−μ)は、P.78の手続きから固有ベクトル展開を用いて座標系を対角化することで(2.50)式Δ2=i=1∑Dλiyi2と書くことができる。例としてD=2であれば
λ1y12+λ2y22=Δ2
と書ける。これは平面図形の楕円である(P.79の図2.7のイメージ)。ちなみにD=3では楕円体(Wikipediaの楕円体を参照)を表す式になり、D≥4では超楕円体を表す。
D次元の超楕円体の体積Veは以下の式で定義される。
Ve=∫∫⋯∫dy1dy2⋯dyD
これは3次元の場合の式V3=∫∫∫dxdydzの拡張です。この辺についての説明は 楕円の面積と楕円体の体積の求め方のページも参考にしてみてください。
今、マハラノビス距離Δは定数ということになっているので、超楕円体はai2=yi2/λiの変数変換を行うことで、半径Δの超球へと変換させることができる。つまりヤコビアンJを使って表現すると
Ve=∫∫⋯∫dy1dy2⋯dyD=∫∫⋯∫∣J∣da1da2⋯daD
となる。ここでヤコビアンは(2.53)−(2.55)での議論から
J=∂a1∂y1⋮∂a1∂yD⋯⋱⋯∂aD∂y1⋮∂a2∂y0=λ10λ2⋱0λD
なので、∣J∣=∏i=1Dλi1/2=∣Σ∣1/2となる。
一方、∫∫⋯∫da1da2⋯daD=∫i=1∏Ddai部分は、半径ΔのD次元超球の体積を表しているので(超球は演習問題1.18でも登場。各変数aiの定義域は−Δ≤ai≤Δである)、問題文の通りにVDをD次元単位球の体積とすると、
∫∫⋯∫da1da2⋯daD=VDΔD
となる。
以上から求める超楕円体の内部の体積Veは(2.286)式の通りに
Ve=VD∣Σ∣1/2ΔD
となることが示された。
マハラノビス距離の直感的な理解としては、例えば https://mathwords.net/mahalanobis などのサイトの説明を読んでください。多次元からなるデータ群の中で例えば外れ値を検出したい場合、データの各次元への分散まで考慮したデータ群からの距離を考える必要があります。これを実現するのがマハラノビス距離です。マハラノビス距離が大きい → その点での確率密度が小さい → 異常度が高いと考えることができます。
演習 2.24
(ACBD)−1=(M−D−1CM−MBD−1D−1+D−1CMBD−1)(2.76)
の両辺に次の行列(ACBD) (2.287)を掛け,また,
M=(A−BD−1C)−1(2.77)
の定義を用いることで,(2.76)の恒等式を証明せよ.
指示通り(2.76)の右辺に左から(ACBD)をかけたものをXとおく。これが左辺に左から(ACBD)をかけたもの、すなわち単位行列Iになっていることを示せば良い。
X=(ACBD)(M−D−1CM−MBD−1D−1+D−1CMBD−1)=(AM−BD−1CMCM−DD−1CM−AMBD−1+B(D−1+D−1CMBD−1)−CMBD−1+D(D−1+D−1CMBD−1))
このそれぞれの部分行列成分について計算していくと
X11=AM−BD−1CM=(A−BD−1C)M=(A−BD−1C)(A−BD−1C)−1=I
X12=−AMBD−1+B(D−1+D−1CMBD−1)=−AMBD−1+BD−1+BD−1CMBD−1=−(A−BD−1C)MBD−1+BD−1=−(A−BD−1C)(A−BD−1C)−1BD−1+BD−1=−BD−1+BD−1=O
X21=CM−DD−1CM=O
X22=−CMBD−1+D(D−1+D−1CMBD−1)=−CMBD−1+I+CMBD−1=I
よって全体としてX=Iとなっていることが示せたので、(2.76)の恒等式は示された。
演習 2.25
2.3.1節や2.3.2節では,多変量ガウス分布の条件付き分布や周辺分布について考察した.より一般的に,xの要素をxa,xb,およびxcの3つに分けることを考える.この分割により,対応する平均ベクトルμと共分散行列Σは
μ=μaμbμc,Σ=ΣaaΣbaΣcaΣabΣbbΣcbΣacΣbcΣcc
のように分割される. 2.3節の結果を用いてxcを周辺化で消去した条件付き分布p(xa∣xb)の式を求めよ.
xcを消去したときの同時分布p(xa,xb)は、平均ベクトルと共分散行列が
μ=(μaμb),Σ=(ΣaaΣbaΣabΣbb)
のガウス分布となる。よって条件付き分布p(xa∣xb)もガウス分布であり、その平均は(2.81)(2.82)で与えられ、式は(2.96)となる。
演習 2.26
非常に有用な線形代数の結果であるWoodbury行列反転公式(Woodbury matrix inversion formula)は
(A+BCD)−1=A−1−A−1B(C−1+DA−1B)−1DA−1(2.289)
である.この両辺に(A+BCD)を掛けて,この公式を証明せよ.
右辺に(A+BCD)を掛けると
(A+BCD)(A−1−A−1B(C−1+DA−1B)−1DA−1)=I−B(C−1+DA−1B)−1DA−1+BCDA−1−BCDA−1B(C−1+DA−1B)−1DA−1=I+BCDA−1−B(I+CDA−1B)(C−1+DA−1B)−1DA−1=I+BCDA−1−BC(C−1+DA−1B)(C−1+DA−1B)−1DA−1=I+BCDA−1−BCDA−1=I
となり示された。
演習 2.27
xとzを2つの独立な確率ベクトル,すなわち,p(x,z)=p(x)p(z)であるとする.これらの和y=x+zの平均が,それぞれの変数について個別に求めた平均の和となることを示せ.同様に,yの共分散行列が,xとzそれぞれの共分散行列の和であることを示せ.これが,演習問題1.10の結果と一致することを確認せよ.
E[y]=E[x+z]=∫∫(x+z)p(x,z)dxdz
xとzは独立であるから
∫∫(x+z)p(x,z)dxdz=∫∫(x+z)p(x)p(z)dxdz=∫∫xp(x)p(z)dxdz+∫∫zp(z)p(x)dxdz=∫xp(x)dx+∫zp(z)dz=E[x]+E[z]
以上よりE[y]=E[x]+E[z]
共分散行列の定義より
cov[y]=E[(y−E[y])(y−E[y])T]=E[(x−E[x]+z−E[z])(x−E[x]+z−E[z])T]
x−E[x]=A、z−E[z]=Bと置くと
cov[y]=E[(A+B)(A+B)T]=E[AAT]+E[ABT]+E[BAT]+E[BBT]
独立な変数同士の共分散は0になることから
cov[y]=E[AAT]+E[BBT]=cov[x]+cov[z]
演習 2.28
平均と共分散がそれぞれ
E[z]=(μAμ+b)(2.108)
と
cov[z]=R−1=(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT)(2.105)
であるような,次の変数上の同時分布を考える.
z=(xy)(2.190)
(2.92) E[xa]=μaと(2.93) cov[xa]=Σaaの結果を用いて,周辺分布p(x)がN(x∣μ,Λ−1) (2.99)となることを示せ.
同様に,
μa∣b=μa+ΣabΣbb−1(xb−μb)(2.81)
と
Σa∣b=Σaa−ΣabΣbb−1Σba(2.82)
の結果を用いて,条件付き分布p(y∣x)が
p(y∣x)=N(y∣Ax+b,L−1)(2.100)
となることを示せ.
(2.92)と(2.93)を(2.98)に代入すると,p(x)=N(x∣μ,Λ−1)であることが簡単に示された.
また
E[z]cov[z]=(μAμ+b)=(Λ−1AΛ−1Λ−1A⊤L−1+AΛ−1A⊤)
を(2.81)と(2.82)に代入すると
μy∣xΣy∣x=μy+ΛyxΛxx−1(x−μx)=Aμ+b+AΛ−1Λ(x−μ)=Aμ+b+Ax−Aμ=Ax+b=Σyy−ΣyxΣxx−1Σxy=L−1+AΛ−1A⊤−AΛ−1ΛΛ−1A⊤=L−1
となって,p(y∣x)=N(y∣Ax+b,L−1)も示された.
演習 2.29
分割行列の逆行列の公式
(ACBD)−1=(M−D−1CM−MBD−1D−1+D−1CMBD−1)(2.76)
を用いて,精度行列
R=(Λ+ATLA−LA−ATLL)(2.104)
の逆行列が,共分散行列
cov[z]=R−1=(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT)(2.105)
となることを示せ.
M=(A−BD−1C)−1
(2.76)より、R−1について
(左上)=(Λ+ATLA−(−ATL)L−1LA)−1=(Λ+ATLA−ATLA)−1=Λ−1
(右上)=−Λ−1(−ATL)L−1=Λ−1AT
(左下)=−L−1(−LA)Λ−1=AΛ−1
(右下)=L−1+L−1(−LA)Λ−1(−ATL)L−1=L−1+AΛ−1AT
これは共分散行列(2.105)と一致する。
演習 2.30
E[z]=R−1(Λμ−ATLbLb)(2.107)
に,
cov[z]=R−1=(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT)(2.105)
の結果を用いて,
E[z]=(μAμ+b)(2.108)
を確かめよ.
単純に計算するだけ
E[z]=R−1(Λμ−ATLbLb)=(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT)(Λμ−ATLbLb)=(Λ−1(Λμ−ATLb)+Λ−1ATLbAΛ−1(Λμ−ATLb)+(L−1+AΛ−1AT)Lb)=(μ−Λ−1ATLb+Λ−1ATLbAμ−AΛ−1ATLb+b+AΛ−1ATLb)=(μAμ+b)
演習 2.31
2つの多次元確率ベクトルxとzを考える.これらは,それぞれガウス分布p(x)=N(x∣μx,Σx)とp(z)=N(z∣μz,Σz)に従い,これらの和はy=x+zであるとする.周辺分布p(x)と条件付き分布p(y∣x)の積からなる線形ガウスモデルを用いて,
E[y]=Aμ+b(2.109)
cov[y]=L−1+AΛ−1AT(2.110)
から周辺分布p(y)についての式を求めよ.
条件付き確率分布p(y∣x)はxが与えられた(つまり定数とした)中でのy=x+zの確率分布を表しているので、yの平均はμzにxを足したもの、yの分散はΣzとなるので、
p(y∣x)=N(y∣μz+x,Σz)
と表すことができる。
以降、pp.88〜90の線形ガウスモデルの議論とまとめ(2.113)〜(2.117)と、この問題設定の
p(x)p(y∣x)=N(x∣μx,Σx)=N(y∣x+μz,Σz)
を比較すると、
μ→μx,Λ−1→Σx,A→I,b→μz,L−1→Σz
と置換することで、(2.115)式から
p(y)=N(y∣μx+μz,Σx+Σz)
となる。これは演習2.27の結果と同じである。
演習 2.32
これと次の演習問題で,線形ガウスモデル中の二次形式の操作を練習し,また,本文中で導いた結果も検証する.周辺分布
p(x)=N(x∣μ,Λ−1)(2.99)
と条件付き分布
p(y∣x)=N(y∣Ax+b,L−1)(2.100)
で定義される同時確率p(x,y)を考える.同時確率の指数部分の二次形式に,2.3節で述べた平方完成の技法を適用して,変数xを積分消去した周辺分布p(y)の平均と共分散の式を求めよ.これには,Woodbury行列反転公式
(A+BCD)−1=A−1−A−1B(C−1+DA−1B)−1DA−1(2.289)
を用いる.これらが,2章の結果を用いて得た結果
E[y]=Aμ+b(2.109)
cov[y]=L−1+AΛ−1AT(2.110)
と一致することを確かめよ.
※ 2.3.3 ガウス変数に対するベイズの定理における導出の流れに則りつつも、問題文の指示によれば途中から二次形式を使ったやり方で導出するよう求めているため、2.3.2 周辺ガウス分布で行ったような二次形式を使ったやり方で求めていきます。結果は当然変わらないですが、こちらの方が2.3.3の行列形式を使ったやり方よりも計算量がものすごく増えます。
演習2.31の内容と同様に、p(x,y)=p(y∣x)p(x)から
p(y)=∫p(x,y)dx=∫N(y∣Ax+b,L−1)N(x∣μ,Λ−1)dx
となる。正規化係数を無視して指数部分だけを考えると
exp{−21(y−Ax−b)TL(y−Ax−b)−21(x−μ)TΛ(x−μ)}
となるので、二次形式を展開すると
=−21{yTLy−2yTL(Ax+b)+(Ax+b)TL(Ax+b)+xTΛx−2μTΛx+μTΛμ}−21{yTLy−2yTLAx−2yTLb+xTATLAx+2bTLAx+bTLb+xTΛx−2μTΛx+μTAμ}
ここで2.3.2の技法に則り、xを積分消去することを目標としてxの関わる項をまとめてから積分を容易にするために平方完成の技法を使う。
xの関わる項を上式から抽出すると
=−21{xT(Λ+ATLA)x−2((yT−bT)LA+μTΛ)x}−21(x−m)T(Λ+ATLA)(x−m)+21mT(Λ+ATLA)m
ここでm=(Λ+ATLA)−1(ΛTμ+ATL(y−b))とした。
指数内に戻して考えると
∫exp{−21(x−m)T(Λ+ATLA)(x−m)}dx
この積分は正規化されていないガウス分布の標準的な二次形式になっているので、正規化係数の逆数になる。その逆数は∣(Λ+ATLA)−1∣、つまり共分散行列のみに依存することがガウス分布の性質から分かるのでxには依存しなくなっている。つまりこれはxが積分によって消去されていることを意味する。
まだ21mT(Λ+ATLA)m部分が残っているので、これをyに依存する項とあわせて再び計算すると(yに依存しない項はconst.とした)
=−21{yTLy−2yTLb+mT(Λ+ATLA)m}+ const. =−21{yTLy−2yTLb+yTLA(Λ+ATLA)−1ATLy−2yT[LA(Λ+ATLA)−1(Λμ−ATLb)]+const.}=−21yT[L−LA(Λ+ATLA)−1ATL]y+yT[(L−LA(Λ+ATLA)−1ATL)b+LA(Λ+ATLA)−1Λμ]
これが周辺分布p(y)の指数部分となっているので、二次形式部分の\mathbf{L}-\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{L}がp(\mathbf{y})の精度行列に相当することがわかる。
Woodburyの反転公式を使うと、共分散行列\operatorname{cov}[\mathbf{y}]は
\operatorname{cov}[\mathbf{y}] = (\mathbf{L}-\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{L})^{-1} = \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}
となる。
最後に平均\mathbb{E}[\mathbf{y}]は、(2.71), (2.75), (2.89)で議論したように、\mathbf{y}^{\mathrm{T}}の係数\left[\left(\mathbf{L}-\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{L}\right)\mathbf{b}+\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{T} \mathbf{LA}\right)^{-1}\mathbf{\Lambda} \boldsymbol{\mu}\right]が\{\operatorname{cov}[\mathbf{y}]\}^{-1}\mathbb{E}[\mathbf{y}]に一致することから求められる。
\begin{aligned}
\mathbb{E}[\mathbf{y}] &= \operatorname{cov}[\mathbf{y}]\left[\left(\mathbf{L}-\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{L}\right)\mathbf{b}+\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{T} \mathbf{LA}\right)^{-1}\mathbf{\Lambda} \boldsymbol{\mu}\right] \\
&=\left(\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right)\left(\left(\mathbf{L}-\mathbf{LA}(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA})^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{L}\right) \mathbf{b}+\mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{\Lambda} \boldsymbol{\mu}\right) \\
&=\left(\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right)\left(\left(\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right)^{-1} \mathbf{b}+\mathbf{LA}\left(\Lambda+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{\Lambda} \boldsymbol{\mu}\right) \\
&=\mathbf{b}+\left(\mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \mathbf{LA}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{\Lambda} \boldsymbol{\mu} \\
&=\mathbf{b}+\left(\mathbf{A}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)\left(\mathbf{\Lambda}\left(\mathbf{I}+\mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)\right)^{-1} \mathbf{\Lambda} \boldsymbol{\mu} \\
&=\mathbf{b}+\left\{\mathbf{A}\left(\mathbf{I}+\mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)\left(\mathbf{I}+\mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \mathbf{\Lambda}^{-1} \mathbf{\Lambda} \boldsymbol{\mu}\right\} \\
&=\mathbf{A}\boldsymbol{\mu}+\mathbf{b}
\end{aligned}
よって(2.109)の平均が求められた。
演習 2.33
演習問題2.32と同じ同時分布について考えるが,今度は,平方完成の技法によって,条件付き分布p(\mathbf{x|y})の平均と共分散の式を求める.この結果も,
\mathbb{E}[\mathbf{x} \mid \mathbf{y}] =\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda} \boldsymbol{\mu}\right\} \tag{2.111}
\operatorname{cov}[\mathbf{x} \mid \mathbf{y}] =\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \tag{2.112}
の式と一致することを確かめよ.
※条件付き分布p(\mathbf{x\mid y})の場合、\mathbf{y}は固定である。演習2.32と同様に考えると
\begin{aligned}
p(\mathbf{x}\mid \mathbf{y}) &= \frac{p(\mathbf{x},\mathbf{y})}{p(\mathbf{y})}\\
&= \frac{p(\mathbf{x}, \mathbf{y})}{\int p(\mathbf{x}, \mathbf{y}) d\mathbf{x}}
\end{aligned}
であり、分母は\mathbf{y}が固定で\mathbf{x}について積分するので定数となる。よって、\mathbf{y}が固定された状態(定数とみなせる状態)でp(\mathbf{x},\mathbf{y})について平方完成し、指数部分を調べれば共分散\operatorname{cov}[\mathbf{x} \mid \mathbf{y}]が求まり、そこから平均\mathbb{E}[\mathbf{x} \mid \mathbf{y}]も求まる。
ここについては演習2.32と同じ流れで
\begin{aligned}
p(\mathbf{x}\mid \mathbf{y}) &= \frac{p(\mathbf{x}, \mathbf{y})}{\int p(\mathbf{x}, \mathbf{y}) d\mathbf{x}} \\
&= C_1 \mathcal{N}\left(\mathbf{y} \mid \mathbf{Ax}+\mathbf{b}, \mathbf{L}^{-1}\right) \mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Lambda}^{-1}\right) \\
&= C_2 \exp\left\{-\frac{1}{2}\left\{\mathbf{x}^{\mathrm{T}}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right) \mathbf{x}-2\left(\left(\mathbf{y}^{\mathrm{T}}-\mathbf{b}^{\mathrm{T}}\right) \mathbf{LA}+\boldsymbol{\mu}^{\mathrm{T}} \mathbf{\Lambda}\right) \mathbf{x} + C_3 \right\} \right\}\\
&= C_4 \exp \left\{ -\frac{1}{2}(\mathbf{x}-\mathbf{m})^{\mathrm{T}}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)(\mathbf{x}-\mathbf{m})+\frac{1}{2} \mathbf{m}^{\mathrm{T}}\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right) \mathbf{m} \right\}
\end{aligned}
ここでC_1, C_2, C_3, C_4はそれぞれ定数で、\mathbf{m}=\left(\mathbf{\Lambda}+\mathbf{A}^{\top} \mathbf{LA}\right)^{-1}(\mathbf{\Lambda} \boldsymbol{\mu}+\mathbf{A}^{\mathrm{T}}\mathbf{L}(\mathbf{y}-\mathbf{b}))であるから、結局p(\mathbf{x}\mid \mathbf{y})の共分散は
\operatorname{cov}[\mathbf{x} \mid \mathbf{y}] =\left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1} \tag{2.112}
となり、
\mathbb{E}[\mathbf{x} \mid \mathbf{y}] = \mathbf{m} = \left(\mathbf{\Lambda}+\mathbf{A}^{\mathrm{T}} \mathbf{LA}\right)^{-1}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda} \boldsymbol{\mu}\right\}
を得る。
演習 2.34
多変量ガウス分布の共分散行列の最尤推定解を求めるには,共分散行列が対称で正定値である制約の下で\mathbf{\Sigma}について対数尤度関数
\ln p(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=-\frac{N D}{2} \ln (2 \pi)-\frac{N}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2} \sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right) \tag{2.118}
を最大化しなくてはならない.ここでは,こうした制約を無視して,ただ最大化することにする.付録Cの(C.21),(C.26),および(C.28)の結果を用いて,対数尤度関数(2.118)を最大化する共分散行列\mathbf{\Sigma}が,サンプル共分散
\mathbf{\Sigma}_{\mathbf{ML}}=\frac{1}{N} \sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathbf{ML}}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathbf{ML}}\right)^{\mathrm{T}} \tag{2.122}
となることを示せ.なお,(サンプル共分散が非特異なら)最終結果は対称かつ,正定値である必要がある.
※ ※ 公式解答集では共分散行列\mathbf{\Sigma}が対称行列であること(\mathbf{\Sigma}^{-1}=({\mathbf{\Sigma}^{-1}})^{\mathrm{T}})の制約を無視して〜と書いてあるのに、その対称性を利用した解答例になっているが、それを利用しなくても答えを出すことはできる。
\begin{aligned}
\frac{\partial}{\partial \mathbf{\Sigma}} \ln p(\mathbf{X} | \boldsymbol{\mu}, \mathbf{\Sigma}) &=-\frac{N}{2} \frac{\partial}{\partial \mathbf{\Sigma}} \ln |\mathbf{\Sigma}|-\frac{1}{2} \frac{\partial}{\partial \mathbf{\Sigma}}\left\{\sum_{n=1}^{N}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)^{\mathrm{T}} \Sigma^{-1} \left(\mathbf{x}_n-\boldsymbol{\mu} \right)\right\} \\
&=-\frac{N}{2}\left(\mathbf{\Sigma}^{-1}\right)^{\mathrm{T}}-\frac{1}{2} \frac{\partial}{\partial \mathbf{\Sigma}}\left\{\sum_{n=1}^{N} \operatorname{Tr}\left(\mathbf{\Sigma}^{-1}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)\left(\mathbf{x}_n-\boldsymbol{\mu} \right)^{\mathrm{T}}\right)\right\} \\
&=-\frac{N}{2}\left(\mathbf{\Sigma}^{-1}\right)^{\mathrm{T}} - \frac{1}{2} \frac{\partial}{\partial \mathbf{\Sigma}} \operatorname{Tr}\left( \mathbf{\Sigma}^{-1} \sum_{n=1}^{N}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)\left(\mathbf{x}_n-\boldsymbol{\mu} \right)^{\mathrm{T}}\right)
\end{aligned}
ここで第2項について、\mathbf{A}=\mathbf{\Sigma}, \mathbf{B}=\sum_{n=1}^{N}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)\left(\mathbf{x}_n-\boldsymbol{\mu} \right)^{\mathrm{T}}とすると、求めるべきは\displaystyle \frac{\partial}{\partial \mathbf{A}}{\mathrm{Tr}}(\mathbf{A}^{-1}\mathbf{B})である。
\begin{aligned}
\frac{\partial}{\partial A_{ij}}{\mathrm{Tr}}(\mathbf{A}^{-1}\mathbf{B}) =& \operatorname{Tr}\left(\left(\frac{\partial}{\partial A_{i j}} \mathbf{A}^{-1} \right) \mathbf{B}\right) \\
=&- \operatorname{Tr}\left(\mathbf{A}^{-1}\left(\frac{\partial}{\partial A_{ij}} \mathbf{A}\right) \mathbf{A}^{-1} \mathbf{B}\right)\hspace{1em}(\because 付録(C.21))\\
=&-\operatorname{Tr}\left(\left(\frac{\partial}{\partial A_{ij}} \mathbf{A}\right) \mathbf{A}^{-1} \mathbf{B} \mathbf{A}^{-1}\right)\hspace{1em}(\because \operatorname{Tr}(\mathbf{ABCD}) = \operatorname{Tr}(\mathbf{BCDA}))
\end{aligned}
なので、\mathbf{C}=\mathbf{A^{-1}BA^{-1}}とすると
\begin{aligned} \operatorname{Tr}\left(\left(\frac{\partial}{\partial A_{ij}} \mathbf{A}\right) \mathbf{C}\right) &=\sum_{s}\left(\left(\frac{\partial}{\partial A_{ij}} \mathbf{A}\right) \mathbf{C}\right)_{ss} \\
&= \sum_{s}\left(\sum_{t}\left(\frac{\partial}{\partial A_{ij}} \mathbf{A}\right)_{s t} c_{ts}\right) \\
&=\sum_{s, t} \delta_{is} \delta_{jt} c_{ts}=c_{ji}
\end{aligned}
最後はs=iかつt=jのときのみクロネッカーのデルタ\delta_{is}\delta_{jt}が1になり、その他は0となることを表している。
ここについては、付録(C.23)に書かれてある定理に則って
\begin{aligned} \operatorname{Tr}\left(\left(\frac{\partial}{\partial A_{ij}} \mathbf{A}\right) \mathbf{C}\right)
&=\frac{\partial}{\partial A_{ij}} \operatorname{Tr}\left(\mathbf{AC} \right) \\
&=c_{ji}
\end{aligned}
としても良い。
(※ 一般に正方行列\mathbf{F}の行列のij成分f_{ij}について\operatorname{Tr}(\mathbf{F})=\sum_{i=1}f_{ii}より、
\frac{\partial}{\partial f_{ij}}\operatorname{Tr}(\mathbf{F}) = \frac{\partial f_{11}}{\partial f_{ij}}+\frac{\partial f_{22}}{\partial f_{ij}}+\cdots= \operatorname{Tr}\left(\frac{\partial}{\partial f_{ij}} \mathbf{F}\right)
が成立する)
これより、\displaystyle \frac{\partial}{\partial A_{ij}}{\mathrm{Tr}}(\mathbf{A}^{-1}\mathbf{B})=-c_{ji}となるので、付録(C.24)のように
\begin{aligned}
\frac{\partial}{\partial \mathbf{A}}{\mathrm{Tr}}(\mathbf{A}^{-1}\mathbf{B}) &= -\mathbf{C}^{\mathrm T} \\
&=-(\mathbf{A^{-1}BA^{-1}})^{\mathrm T} \\
&=-(\mathbf{\Sigma^{-1}B\Sigma^{-1}})^{\mathrm T}
\end{aligned}
よって、最大値を求めるために\frac{\partial}{\partial \mathbf{\Sigma}} \ln p(\mathbf{X} | \boldsymbol{\mu}, \mathbf{\Sigma}) = 0とすると
\begin{aligned}
-\frac{N}{2}\left(\mathbf{\Sigma}^{-1}\right)^{\mathrm{T}} - \frac{1}{2} \frac{\partial}{\partial \mathbf{\Sigma}} \operatorname{Tr}\left( \mathbf{\Sigma}^{-1} \sum_{n=1}^{N}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)\left(\mathbf{x}_n-\boldsymbol{\mu} \right)^{\mathrm{T}}\right)
=0 \\
\frac{N}{2}\left(\mathbf{\Sigma}^{-1}\right)^{\mathrm{T}} = \frac{1}{2} \left( \mathbf{\Sigma^{-1}} \sum_{n=1}^{N}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)\left(\mathbf{x}_n-\boldsymbol{\mu} \right)^{\mathrm{T}} \mathbf{\Sigma^{-1}} \right) ^{\mathrm T}
\end{aligned}
互いの転置をとって移項すると、
\mathbf{\Sigma} = \frac{1}{N}\sum_{n=1}^{N}\left(\mathbf{x}_n-\boldsymbol{\mu}\right)\left(\mathbf{x}_n-\boldsymbol{\mu} \right)^{\mathrm{T}}
となり、これは式(2.122)となる。また、これによって\mathbf{\Sigma}についての対称性を仮定せずに\mathbf{\Sigma}が対称行列になることがわかった。
演習 2.35
\mathbb{E}[\mathbf{x}] = \boldsymbol{\mu} \tag{2.59}
の結果を用いて,
\mathbb{E}[\mathbf{xx}^{\mathrm{T}}] = \boldsymbol{\mu\mu}^{\mathrm{T}}+\mathbf{\Sigma} \tag{2.62}
を証明せよ.そして,(2.59)と(2.62)の結果から,
\mathbb{E}\left[\mathbf{x}_{n} \mathbf{x}_{m}^{\mathrm{T}}\right]=\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}+I_{n m} \mathbf{\Sigma} \tag{2.291}
を示せ.ただし,\mathbf{x}_{n}は,平均が\boldsymbol{\mu}で共分散が\mathbf{\Sigma}のガウス分布からサンプリングされたデータ点,I_{nm}は単位行列の(n,m)要素を表す.これから,
\mathbb{E}[\mathbf{\Sigma}_{\mathrm{ML}}] = \frac{N-1}{N}\mathbf{\Sigma} \tag{2.124}
の結果を証明せよ.
(2.59)と(2.62)から、m=nであれば\mathbb{E}\left[\mathbf{x}_{n} \mathbf{x}_{m}\right]=\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}+\mathbf{\Sigma}となる。
一方で、m \ne nだったときには2つのデータセット\mathbf{x}_nと\mathbf{x}_mは独立なので\mathbb{E}\left[\mathbf{x}_{n} \mathbf{x}_{m}\right]=\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}となる。
よって、I_{nm}を使うと\mathbb{E}[\mathbf{x}_n\mathbf{x}_m^{\mathrm T}] = \boldsymbol{\mu}\boldsymbol{\mu}^{\mathrm{T}} + I_{nm}\mathbf{\Sigma}となる。
(2.124)式 \displaystyle \mathbb{E}\left[\mathbf{\Sigma}_{\mathrm{ML}}\right]=\frac{N-1}{N} \mathbf{\Sigma}を示す。
(2.122)式より
\begin{align}
\mathbb{E}\left[\mathbf{\Sigma}_{\mathrm{ML}}\right] &=\frac{1}{N} \sum_{n=1}^{N} \mathbb{E}\left[\left(\mathbf{x}_{n}-\frac{1}{N} \sum_{m=1}^{N} \mathbf{x}_{m}\right)\left(\mathbf{x}_{n}^{\mathrm{T}}-\frac{1}{N} \sum_{l=1}^{N} \mathbf{x}_{l}^{\mathrm{T}}\right)\right] \\
&=\frac{1}{N} \sum_{n=1}^{N} \mathbb{E}\left[\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm{T}}-\frac{2}{N} \mathbf{x}_{n} \sum_{m=1}^{N} \mathbf{x}_{m}^{\mathrm{T}}+\frac{1}{N^{2}} \sum_{m=1}^{N} \sum_{l=1}^{N} \mathbf{x}_{m} \mathbf{x}_{l}^{\mathrm{T}}\right] \\
&=\frac{1}{N}\sum_{n=1}^{N}\left\{ \mathbb{E}[\mathbf{x}_n\mathbf{x}_n^{\mathrm{T}}]-\frac{2}{N}\mathbb{E}\left[ \mathbf{x}_{n} \sum_{m=1}^{N} \mathbf{x}_{m}^{\mathrm{T}} \right] +\frac{1}{N^2}\mathbb{E}\left[ \sum_{m=1}^{N} \sum_{l=1}^{N} \mathbf{x}_{m} \mathbf{x}_{l}^{\mathrm{T}} \right] \right\} \\
&=\frac{1}{N}\sum_{n=1}^{N}\left\{\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}+\mathbf{\Sigma}-2\left(\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}+\frac{1}{N} \mathbf{\Sigma}\right)+\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}+\frac{1}{N} \mathbf{\Sigma}\right\} \\
&=\frac{N-1}{N} \mathbf{\Sigma}
\end{align}
演習 2.36
\begin{align}
\boldsymbol{\mu}_{\mathrm{ML}}^{(N)} &=\frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_{n} \\
&=\frac{1}{N} \mathbf{x}_{N}+\frac{1}{N} \sum_{n=1}^{N-1} \mathbf{x}_{n} \\
&=\frac{1}{N} \mathbf{x}_{N}+\frac{N-1}{N} \boldsymbol{\mu}_{\mathrm{ML}}^{(N-1)} \\
&=\boldsymbol{\mu}_{\mathrm{ML}}^{(N-1)}+\frac{1}{N}\left(\mathbf{x}_{N}-\boldsymbol{\mu}_{\mathrm{ML}}^{(N-1)}\right) \tag{2.126}
\end{align}
を得たのと同様の手続きで,次の最尤推定の式から,1変数ガウス分布の分散の逐次推定の式を導出せよ.
\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} \tag{2.292}
Robbins-Monroの逐次推定の式
\theta^{(N)}=\theta^{(N-1)}-a_{N-1} \frac{\partial}{\partial \theta^{(N-1)}}\left[-\ln p\left(x_{N} \mid \theta^{(N-1)}\right)\right] \tag{2.135}
にガウス分布を代入すると,これと同じ式になることを確かめ,ここから対応する係数a_Nの式を求めよ.
※ この問題の主題は(2.292)式から(2.126)式のような手続きによって1変数ガウス分布の分散を求めるというのが前半で、後半はこの式とRobbins-Monroアルゴリズムによる(2.135)式が係数a_Nを適切に定めることで同型になることを示すことである。
まずは(2.292)式から分散の逐次更新式を求める。
\begin{aligned}
\sigma^2_{(N)} &=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} \\
&=\frac{1}{N}\left\{\sum_{n=1}^{N-1}\left(x_{n}-\mu\right)^{2}+\left(x_{N}-\mu\right)^{2}\right\} \\
&=\frac{N-1}{N} \cdot \frac{1}{N-1} \sum_{n=1}^{N-1}\left(x_{n}-\mu \right)^{2}+\frac{1}{N}\left(x_{N}-\mu\right)^{2} \\
&=\frac{N-1}{N} \sigma^2_{(N-1)}+\frac{1}{N}\left(x_{N}-\mu \right)^{2} \\
&=\sigma^2_{(N-1)}+\frac{1}{N}\left( (x_N-\mu)^2-\sigma^2_{(N-1)}\right) \hspace{2em} \cdots (1)
\end{aligned}
一方、Robbins-Monroの式ガウス分布の式を代入すると
\begin{aligned}
\sigma_{(N)}^{2}
&=\sigma_{(N-1)}^{2}-a_{N-1} \frac{\partial}{\partial \sigma_{(N-1)}^{2}}\left[-\ln \left\{\frac{1}{\sqrt{2 \pi \sigma_{(N-1)}^{2}}} \exp \left(-\frac{\left(x_{N}-\mu\right)^{2}}{2 \sigma_{(N-1)}^{2}}\right)\right\}\right]\\
&=\sigma_{(N-1)}^{2}-a_{N-1} \frac{\partial}{\partial \sigma_{(N-1)}^{2}}\left[\frac{1}{2} \ln \left(2 \pi \sigma_{(N-1)}^{2}\right)+\frac{\left(x_{N}-\mu\right)^{2}}{2 \sigma_{(N-1)}^{2}}\right] \\
&=\sigma_{(N-1)}^{2}-a_{N-1}\left\{\frac{1}{2} \cdot \frac{1}{\sigma_{(N-1)}^{2}}-\frac{\left(x_{N}-\mu\right)^{2}}{2 \sigma_{(N-1)}^{4}}\right\} \\
&=\sigma_{(N-1)}^{2}+\frac{a_{N-1}}{2 \sigma_{(N-1)}^{4}}\left\{-\sigma^2_{(N-1)}+\left(x_{N}-\mu\right)^{2}\right\} \hspace{2em} \cdots (2)
\end{aligned}
(1), (2)式を比較すると\displaystyle a_{N-1} = \frac{2\sigma^4_{(N-1)}}{N} \hspace{1em} \left( a_{N} = \frac{2\sigma^4_{(N)}}{N+1} \right)が得られる。
演習 2.37
(2.126)を得たのと同様の手続きで、最尤推定の式
\mathbf{\Sigma}_{\mathbf{ML}}=\frac{1}{N} \sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathbf{ML}}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathbf{ML}}\right)^{\mathrm{T}} \tag{2.122}
から,多変量ガウス分布の共分散の逐次推定の式を導出せよ.Robbins-Monroの逐次推定の式(2.135)にガウス分布を代入すると,これと同じ式になることを確かめ,ここから係数a_Nの式を求めよ.
※問題設定が悪く、解けない可能性が高い。
(2.122)式
\Sigma_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathrm{ML}}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{\mathrm{ML}}\right)^{\mathrm{T}}
から多次元ガウス分布の分散の逐次更新式を求める。
\begin{aligned}
\Sigma_{(N)} &= \frac{1}{N}\sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right)^{\mathrm{T}} \\
&= \frac{N-1}{N}\cdot\frac{1}{N-1}\left\{ \sum_{n=1}^{N-1}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right)^{\mathrm{T}}+\left(\mathbf{x}_{N}-\boldsymbol{\mu}\right)\left(\mathbf{x}_{N}-\boldsymbol{\mu}\right)^{\mathrm{T}} \right\} \\
&= \frac{N-1}{N}\Sigma_{(N-1)}+\frac{1}{N}(\mathbf{x}_{N}-\boldsymbol{\mu})(\mathbf{x}_{N}-\boldsymbol{\mu})^{\mathrm{T}} \\
&= \Sigma_{(N-1)}+\frac{1}{N}\left\{ (\mathbf{x}_{N}-\boldsymbol{\mu})(\mathbf{x}_{N}-\boldsymbol{\mu})^{\mathrm{T}} - \Sigma_{(N-1)}\right\} \hspace{2em} \cdots (1)
\end{aligned}
一方、Robbins-Monroの式に多変量ガウス分布を当てはめると、
\Sigma_{(N)} = \Sigma_{(N-1)}-a_{N-1}\frac{\partial}{\partial \Sigma_{(N-1)}}\left[ -\ln \left\{ \frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma_{(N-1)}|^{1/2}}\exp\left\{ -\frac{1}{2}(\mathbf{x}_N-\boldsymbol{\mu})^{\mathrm{T}}\Sigma_{(N-1)}(\mathbf{x}_N-\boldsymbol{\mu}) \right\} \right\} \right]\hspace{2em} \cdots (2)
この微分項について考える。
\begin{aligned}
&\frac{\partial}{\partial \Sigma_{(N-1)}}\left[ -\ln \left\{ \frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma_{(N-1)}|^{1/2}}\exp\left\{ -\frac{1}{2}(\mathbf{x}_N-\boldsymbol{\mu})^{\mathrm{T}}\Sigma_{(N-1)}(\mathbf{x}_N-\boldsymbol{\mu}) \right\} \right\} \right] \\
=& \frac{1}{2}\Sigma_{(N-1)}^{-1}-\frac{1}{2}\left\{ \Sigma_{(N-1)}^{-1}(\mathbf{x}_{N}-\boldsymbol{\mu})(\mathbf{x}_{N}-\boldsymbol{\mu})^{\mathrm{T}}\Sigma_{(N-1)}^{-1} \right\} \\
=& -\frac{1}{2}\Sigma_{(N-1)}^{-1}\left\{ (\mathbf{x}_{N}-\boldsymbol{\mu})(\mathbf{x}_{N}-\boldsymbol{\mu})^{\mathrm{T}} -\Sigma_{(N-1)} \right\}\Sigma_{(N-1)}^{-1}
\end{aligned}
(2)式に当てはめれば
\Sigma_{(N)} = \Sigma_{(N-1)}+\frac{a_{N-1}\Sigma_{(N-1)}^{-1}}{2}\left\{ (\mathbf{x}_{N}-\boldsymbol{\mu})(\mathbf{x}_{N}-\boldsymbol{\mu})^{\mathrm{T}} -\Sigma_{(N-1)} \right\}\Sigma_{(N-1)}^{-1}
ここまではわかったけれど係数a_{N-1}がきれいな式にならない……。解答例では、追加で共分散行列がdiagonal(対角行列?)ならば\displaystyle a_{N-1} = \frac{2}{N}\left( \Sigma_{(N-1)}\right)^2とすれば良いと書いてあるが、仮にdiagonalでも合わない気がする。Googleで調べてみたけれどよくわからない。
参考:https://math.stackexchange.com/questions/1558016/deriving-mle-for-covariance-matrix-using-robbins-monro
演習 2.38
二次形式を平方完成することで,
\mu_{N} =\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{\mathrm{ML}} \tag{2.141}
\frac{1}{\sigma_{N}^{2}} =\frac{1}{\sigma_{0}^{2}}+\frac{N}{\sigma^{2}} \tag{2.142}
の結果を導出せよ.
p(\mu \mid \mathbf{x}) \propto p(\mathbf{x} \mid \mu) p(\mu) \tag{2.139}
について、
p(\mathbf{x} \mid \mu)=\prod_{n=1}^{N} p\left(x_{n} \mid \mu\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{N / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\} \tag{2.137}
とp(\mu) = \mathcal{N}(\mu | \mu_0, \sigma_0^2) \hspace{1em}(2.138)式で変形する。
\muについての式としてのp(\mathbf{X}|\mu)p(\mu)の指数部分について考えると
\begin{aligned}
& \exp \left\{ -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n-\mu)^2 \right\}\cdot \exp \left\{ -\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2 \right\} \\
=&\exp \left \{ -\frac{1}{2\sigma^2} \sum_{n=1}^{N}(x_n^2 -2x_n \mu + \mu^2) - \frac{1}{2\sigma_0^2} (\mu^2 - 2\mu\mu_0 + \mu_0^2)\right\} \\
=&\exp \left\{ -\frac{1}{2}\left( \frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\right)\mu^2 + \left( \frac{1}{\sigma^2}\sum_{n=1}^{N}x_n+\frac{\mu_0}{\sigma_0^2} \right)\mu + \cdots \right\}
\end{aligned}
となる。ここで、\cdotsの部分は\muに依存しない項なので考えなくても良い。一方で、(2.140)の右辺の指数部分について考えると、
\begin{aligned}
& \exp \left\{ -\frac{1}{2\sigma_N^2}(\mu - \mu_N)^2 \right\} \\
=& \exp \left\{ -\frac{1}{2}\left( \frac{1}{\sigma_N^2} \right)\mu^2+\frac{\mu_N}{\sigma_N^2}\mu+\cdots \right\}
\end{aligned}
\displaystyle \sum_{n=1}^{N}x_n = N\mu_{\mathrm{ML}}に注意して、これら2つの式を比較すると
\begin{aligned}
\frac{1}{\sigma_N^2}&=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2},\hspace{2em}\left( \sigma_N^2 = \frac{\sigma^2\sigma_0^2}{\sigma^2+N\sigma_0^2} \right) \\
\frac{\mu_N}{\sigma_N^2}&=\frac{\mu_0}{\sigma_0^2}+\frac{N}{\sigma^2}\mu_{\mathrm{ML}}
\end{aligned}
2式めを変形して
\begin{aligned}
\mu_{N}&=\left( \frac{\mu_0}{\sigma_0^2}+\frac{N\mu_{\mathrm{ML}}}{\sigma^2} \right)\sigma_{N}^2 \\
&=\left( \frac{\mu_0}{\sigma_0^2}+\frac{N\mu_{\mathrm{ML}}}{\sigma^2} \right) \left( \frac{\sigma^2\sigma_0^2}{\sigma^2+N\sigma_0^2} \right) \\
&=\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{\mathrm{ML}}
\end{aligned}
ベイズ推定では、事前知識を決め打ちではなく分布の形で表す。
演習 2.39
ガウス確率変数の平均の事後分布についての結果
\mu_{N} =\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{\mathrm{ML}} \tag{2.141}
\frac{1}{\sigma_{N}^{2}} =\frac{1}{\sigma_{0}^{2}}+\frac{N}{\sigma^{2}} \tag{2.142}
を元に,最初のN-1個のデータ点の影響を分離し\mu_{N}と\sigma^2_{N}の逐次更新の式を求めよ.そして,事後分布p\left(\mu | x_{1}, \ldots, x_{N-1}\right)=\mathcal{N}\left(\mu | \mu_{N-1}, \sigma_{N-1}^{2}\right)に尤度関数p(x_N|\mu) = \mathcal{N}(x_N|\mu, \sigma^2)を掛けた後,平方完成と正規化をすることで,N個の観測値を得た後の事後分布と同じ結果を導出せよ.
問題文の通り、N-1個のデータ点との影響を分離する。ただし、分散\sigma^2は既知であることに注意する。
(2.141)と(2.142)式と、演習問題2.38の結果から、\mu_0 \to \mu_{N-1}, \sigma_0 \to \sigma_{N-1}, \mu_{\mathrm{ML}}=x_N, N=1の場合に当てはまるので、\displaystyle \mu_N = \left( \frac{\mu_{N-1}}{\sigma_{N-1}^2}+\frac{x_N}{\sigma^2} \right)\sigma_N^2の形になるはずである。これを示す。
\begin{aligned}
\frac{1}{\sigma_N^2}&=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2}=\frac{1}{\sigma_0^2}+\frac{N-1}{\sigma^2}+\frac{1}{\sigma^2} = \frac{1}{\sigma_{N-1}^2}+\frac{1}{\sigma^2} \\
\sigma_N^2 &= \frac{\sigma^2+\sigma_{N-1}^2}{\sigma^2\sigma_{N-1}^2}
\end{aligned}
平均\mu_Nについて
\begin{aligned}
\mu_N &= \frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{\mathrm{ML}} \\
&= \frac{\mu_0}{\sigma_0^2}\sigma_N^2+\frac{\sigma_N^2}{\sigma^2}\left( \sum_{n=1}^{N-1}x_n + x_N \right) \\
&= \left( \frac{\mu_0}{\sigma_0^2}+\frac{1}{\sigma^2}\sum_{n=1}^{N-1}x_n \right)\sigma_N^2 + \frac{x_N}{\sigma^2}\sigma_N^2
\end{aligned}
ここで\displaystyle \frac{\mu_0}{\sigma_0^2}+\frac{1}{\sigma^2}\sum_{n=1}^{N-1}x_nについて、演習2.38の途中式で出てきたように
\frac{\mu_0}{\sigma_0^2}+\frac{1}{\sigma^2}\sum_{n=1}^{N-1}x_n = \frac{\mu_{N-1}}{\sigma_{N-1}^2}
と書けるので、
\mu_N = \left( \frac{\mu_{N-1}}{\sigma_{N-1}^2} + \frac{x_N}{\sigma^2} \right)\sigma_N^2\, \hspace{2em}\left( \frac{\mu_N}{\sigma_N^2} = \frac{\mu_{N-1}}{\sigma_{N-1}^2}+\frac{x_N}{\sigma^2} \right)
となる。これが逐次更新の式となる。
事後分布に尤度関数をかけて、平方完成と正規化〜の部分は演習問題2.38の解き方と同じであり、得られる結果は上記となる。
演習 2.40
D次元ガウス確率変数\mathbf{x}を考える.この分布\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}, \mathbf{\Sigma})の共分散\mathbf{\Sigma}は既知としたとき,観測値集合\mathbf{X} = \{ \mathbf{x}_1, \ldots, \mathbf{x}_N \}から平均\boldsymbol{\mu}を推定したいとする.事前分布p(\boldsymbol{\mu})=\mathcal{N}\left(\boldsymbol{\mu} | \boldsymbol{\mu}_{0}, \mathbf{\Sigma_{0}} \right)について、これに対応する事後分布p(\boldsymbol{\mu} | \mathbf{X})を求めよ.
事後分布p(\boldsymbol{\mu} | \mathbf{X})は事前分布\prod_{n=1}^{N} p\left(\mathbf{x}_{n} | \boldsymbol{\mu}, \mathbf{\Sigma}\right)に尤度関数p(\boldsymbol{\mu})をかけたものに比例するので、
p(\boldsymbol{\mu} | \mathbf{X}) \propto \prod_{n=1}^{N} p\left(\mathbf{x}_{n} | \boldsymbol{\mu}, \mathbf{\Sigma}\right) p(\boldsymbol{\mu})
先の演習問題と同様に指数部分を考えると
\begin{aligned}
&-\frac{1}{2}\left(\boldsymbol{\mu}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}} \mathbf{\Sigma}_{0}^{-1}\left(\boldsymbol{\mu}-\boldsymbol{\mu}_{0}\right)-\frac{1}{2} \sum_{n=1}^{N}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{x}_{n}-\boldsymbol{\mu}\right) \\
=&-\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}}\left(\mathbf{\Sigma}_{0}^{-1}+N \mathbf{\Sigma}^{-1}\right) \boldsymbol{\mu}+\boldsymbol{\mu}^{\mathbf{T}}\left(\mathbf{\Sigma}_{0}^{-1} \boldsymbol{\mu}_{0}+\mathbf{\Sigma}^{-1} \sum_{n=1}^{N} \mathbf{x}_{n}\right)+\mathrm{const.}
\end{aligned}
ここで、\mathrm{const.}は\boldsymbol{\mu}と独立な項であり、正規化時に吸収される。
求める事後分布の形を\mathcal{N}(\boldsymbol{\mu}|\boldsymbol{\mu}_N,\mathbf{\Sigma}_{N})とすると、この指数部分は
-\frac{1}{2}(\boldsymbol{\mu}-\boldsymbol{\mu}_N)^{\mathrm{T}}\mathbf{\Sigma}_N^{-1}(\boldsymbol{\mu}-\boldsymbol{\mu}_N)=-\frac{1}{2}\boldsymbol{\mu}^{\mathrm{T}}\mathbf{\Sigma}_N^{-1}\boldsymbol{\mu}+\boldsymbol{\mu}^{\mathrm{T}}\mathbf{\Sigma}_N^{-1}\boldsymbol{\mu}_N+\textrm{const.}
となるので、まず\boldsymbol{\mu}の二次形式部分について
\mathbf{\Sigma}_{N}^{-1} =\mathbf{\Sigma}_{0}^{-1}+N \mathbf{\Sigma}^{-1}
となり、\boldsymbol{\mu}^{\mathrm{T}}の係数について
\begin{aligned}
\boldsymbol{\mu}_{N} &=\mathbf{\Sigma}_N\left(\mathbf{\Sigma}_{0}^{-1} \boldsymbol{\mu}_{0}+\mathbf{\Sigma}^{-1} N \boldsymbol{\mu}_{\mathrm{ML}}\right) \\
&=\left(\mathbf{\Sigma}_{0}^{-1}+N \boldsymbol{\Sigma}^{-1}\right)^{-1}\left(\mathbf{\Sigma}_{0}^{-1} \boldsymbol{\mu}_{0}+\mathbf{\Sigma}^{-1} N \boldsymbol{\mu}_{\mathrm{ML}}\right)
\end{aligned}
となる。ただし、ここで\displaystyle \sum_{n=1}^{N}\mathbf{x}_n=N\boldsymbol{\mu}_{\mathrm{ML}}とした。
すなわち、事後分布p(\boldsymbol{\mu} | \mathbf{X})は\mathcal{N}(\boldsymbol{\mu}|\boldsymbol{\mu}_N,\mathbf{\Sigma}_{N}) = \mathcal{N}(\boldsymbol{\mu}\mid \left(\mathbf{\Sigma}_{0}^{-1}+N \boldsymbol{\Sigma}^{-1}\right)^{-1}\left(\mathbf{\Sigma}_{0}^{-1} \boldsymbol{\mu}_{0}+\mathbf{\Sigma}^{-1} N \boldsymbol{\mu}_{\mathrm{ML}}\right), (\mathbf{\Sigma}_{0}^{-1}+N \mathbf{\Sigma}^{-1})^{-1})の形で書ける。
Discussion