🧠

PRML 第13章(13.18から13.34まで)解答例

2022/05/15に公開

はじめに

PRML解答例まとめを参照

演習 13.18

演習問題13.17の結果を用いて、図13.18に示すinput-output隠れマルコフモデルのフォワード-バックワードアルゴリズムの再帰式を初期条件とともに導け.


フォワード-バックワードアルゴリズムの再帰式は(13.36),(13.38)のような式のこと。また、演習13.17で得た結果

f\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)=p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{u}_{n}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}, \mathbf{u}_{n}\right)

を利用すれば簡単である。まず\alpha(\mathbf{z}_{n})について考えると、(13.49), (13.50)を参考にして

\begin{aligned} \alpha\left(\mathbf{z}_{n}\right) &=\mu_{f_{n} \rightarrow \mathbf{z}_{n}}\left(\mathbf{z}_{n}\right) \\ &=\sum_{\mathbf{z}_{n-1}} f_{n}\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right) \underbrace{\mu_{f_{n-1} \rightarrow \mathbf{z}_{n-1}}\left(\mathbf{z}_{n-1}\right)}_{\alpha\left(\mathbf{z}_{n-1}\right)} \\ &=\sum_{\mathbf{z}_{n-1}} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{u}_{n}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}, \mathbf{u}_{n}\right) \alpha\left(\mathbf{z}_{n-1}\right) \end{aligned}

となる。ここで、初期条件\alpha(\mathbf{z}_{1})は演習13.17で求めたように

\alpha(\mathbf{z}_{1}) = h\left(\mathbf{z}_{1}\right)=p\left(\mathbf{z}_{1} \mid \mathbf{u}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}, \mathbf{u}_{1}\right)

である。同様に\beta(\mathbf{z}_{n})について

\begin{aligned} \beta\left(\mathbf{z}_{n}\right) &=\mu_{f_{n+1} \rightarrow \mathbf{z}_{n}}\left(\mathbf{z}_{n}\right) \\ &=\sum_{\mathbf{z}_{n+1}} f_{n+1}\left(\mathbf{z}_{n}, \mathbf{z}_{n+1}\right) \underbrace{\mu_{f_{n+2} \rightarrow \mathbf{z}_{n+1}}\left(\mathbf{z}_{n+1}\right)}_{\beta(\mathbf{z}_{n+1})} \\ &=\sum_{\mathbf{z}_{n+1}} p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}, \mathbf{u}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}, \mathbf{u}_{n+1}\right) \beta\left(\mathbf{z}_{n+1}\right) \end{aligned}

となる。初期条件(最初のメッセージ)は\beta(\mathbf{z}_{N})=1のままで、これは入力確率\mathbf{u}_{n}が存在する場合でも同じである。

演習 13.19

線形動的システムにおいては、すべての観測変数により条件付けられた個々の潜在変数に対する事後分布を、カルマンフィルタとカルマンスムーザの方程式を用いて効率的に求めることができる。これらの事後分布の各々を独立に最大化することにより得られる潜在変数の系列が、潜在変数の値の最も確からしい系列と同ーであることを示せ。これを実行する際に、線形動的システムにおいては、すべての潜在変数と観測変数の同時分布はガウス分布であり、したがって、すべての条件付き分布と周辺分布もガウス分布であることに注意して、

p\left(\mathbf{x}_{a}\right)=\mathcal{N}\left(\mathbf{x}_{a} \mid \boldsymbol{\mu}_{a}, \Sigma_{a a}\right) \tag{2.98}

の結果を用いよ.


線形動的システムにおいては全ての潜在変数と観測変数の同時分布はガウス分布であるため,任意の変数の組について事後分布を最大化することができる.したがってすべての潜在変数の同時分布を最大化することも、各潜在変数についての周辺分布を個別に最大化することも可能である。しかし、(2.98)から、結果の平均はどちらの場合も同じになることがわかり、ガウス分布では平均と潜在変数の最も確からしい値は一致するので、潜在変数の事後分布をそれぞれに最大化した系列でも潜在変数の同時分布を最大化した系列でも、同じ結果になることがわかる。

演習 13.20

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}

の結果を用いて

\begin{array}{c}\int \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \boldsymbol{\Gamma}\right) \mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathrm{d} \mathbf{z}_{n-1} \\ =\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \boldsymbol{\mu}_{n-1}, \mathbf{P}_{n-1}\right)\end{array} \tag{13.87}

を証明せよ.


(2.113)~(2.115)の議論の結果を変数の対応をとりながら利用することができる

\mathbf{x} の周辺ガウス分布と, \mathbf{x} が与えられたときの \mathbf{y} の条件付きガウス分布が次式で 与えられたとする.

\begin{aligned} p(\mathbf{x}) &=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right) \\ p(\mathbf{y} \mid \mathbf{x}) &=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right) \end{aligned}

\mathbf{y} の周辺分布は

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right)

これと今回の変数の対応を考えると,\mathbf{x}\rightarrow\mathbf{z}_{n-1},\mathbf{\mu}\rightarrow\mathbf{\mu}_{n-1},\boldsymbol{\Lambda}^{-1}\rightarrow\mathbf{V}_{n-1},\mathbf{y}\rightarrow\mathbf{z}_n,\mathbf{A}\rightarrow\mathbf{A},\mathbf{b}\rightarrow\mathbf{0},\mathbf{L}^{-1}\rightarrow\boldsymbol{\Gamma}となる.この結果を用いると(13.87)が示される.

演習 13.21

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}
p(\mathbf{x} \mid \mathbf{y}) =\mathcal{N}\left(\mathbf{x} \mid \Sigma\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda} \mu\right\}, \boldsymbol{\Sigma}\right) \tag{2.116}

の結果と、

\left(\mathbf{P}^{-1}+\mathbf{B}^{\mathrm{T}} \mathbf{R}^{-1} \mathbf{B}\right)^{-1} \mathbf{B}^{\mathrm{T}} \mathbf{R}^{-1}=\mathbf{P B}^{\mathrm{T}}\left(\mathbf{B P B}^{\mathrm{T}}+\mathbf{R}\right)^{-1} \tag{C.5}
\left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7}

の行列恒等式をともに用いて

\boldsymbol{\mu}_{n} =\mathbf{A} \boldsymbol{\mu}_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right) \tag{13.89}
\mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90}
c_{n} =\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C A} \boldsymbol{\mu}_{n-1}, \mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\Sigma\right) \tag{13.91}

の結果を導け。ここで、カルマン利得行列\mathbf{K}_{n}

\mathbf{K}_{n}=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1} \tag{13.92}

で定義される.


(2.113)~(2.117)の議論より\mathbf{x} の周辺ガウス分布と, \mathbf{x} が与えられたときの \mathbf{y} の条件付きガウス分布が次式で 与えられたとする.

p(\mathbf{x}) =\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right)\tag{2.113}
p(\mathbf{y} \mid \mathbf{x}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right)\tag{2.114}

\mathbf{y} の周辺分布と , \mathbf{y} が与えられたときの \mathbf{x} の条件付き分布は

p(\mathbf{y}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}
p(\mathbf{x} \mid \mathbf{y}) =\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\Sigma}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\boldsymbol{\Lambda} \boldsymbol{\mu}\right\}, \boldsymbol{\Sigma}\right)\tag{2.116}

で与えられる. ただし,

\Sigma=\left(\Lambda+\mathrm{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}\tag{2.117}

である.(13.87)の周辺分布の計算結果を用いて(13.86)を書き直すと以下のようになる.

c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \boldsymbol{\mu}_{n-1}, \mathbf{P}_{n-1}\right)

この式の右辺は\mathbf{x}_n\mathbf{z}_nの同時分布で,\mathbf{z}_nを与えられたときの\mathbf{x}_nの条件付き分布と\mathbf{z}_nの分布の積の形で表されている.これらはそれぞれ(2.114)と(2.113)に対応している.
ここで右辺の同時分布の分解を\mathbf{x}_nを与えられたときの\mathbf{z}_nの条件付き分布と\mathbf{x}_nの分布の積の形に書き換える.このときそれぞれ(2.116)と(2.115)に対応することになる

\begin{array}{ll} \mathbf{x} \Rightarrow \mathbf{z}_{n} \quad \boldsymbol{\mu} \Rightarrow \mathbf{A} \boldsymbol{\mu}_{n-1} \quad \mathbf{\Lambda}^{-1} \Rightarrow \mathbf{P}_{n-1} \\ \mathbf{y} \Rightarrow \mathbf{x}_{n} \quad \mathbf{A} \Rightarrow \mathbf{C} \quad \mathbf{b} \Rightarrow \mathbf{0} \quad \mathbf{L}^{-1} \Rightarrow \boldsymbol{\Sigma} & \end{array}

これらを代入すると

(2.113),(2.114),(2.115) により (13.91)の右辺を得る

また(2.116)から

p\left(\mathbf{z}_{n} \mid \mathbf{x}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{M}\left(\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{n}+\mathbf{P}_{n-1}^{-1} \mathbf{A} \boldsymbol{\mu}_{n-1}\right), \mathbf{M}\right)\tag{1}

ただし(2.117)を用いて\mathbf{M}を以下のように定めた.

\mathbf{M}=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1}\tag{2} (C.7)
\begin{aligned} \mathbf{M} &=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{P}_{n-1}-\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\boldsymbol{\Sigma}+\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C P}_{n-1} \\ &=\left(\mathbf{I}-\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\boldsymbol{\Sigma}+\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C}\right) \mathbf{P}_{n-1} \\ &=\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}, \end{aligned}

となり,これは(13.90)の右辺と一致する

(2), (C.5),(13.92)を用いて

\begin{aligned} \mathbf{M} \mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} &=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1} \mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \\ &=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C} \mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1}=\mathbf{K}_{n} \end{aligned}

これと(13.90)を用いると, (1)の平均を書き換えることができて

\begin{aligned} \mathbf{M}\left(\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{n}+\mathbf{P}_{n-1}^{-1} \mathbf{A} \boldsymbol{\mu}_{n-1}\right) &=\mathbf{M} \mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{n}+\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{A} \boldsymbol{\mu}_{n-1} \\ &=\mathbf{K}_{n} \mathbf{x}_{n}+\mathbf{A} \boldsymbol{\mu}_{n-1}-\mathbf{K}_{n} \mathbf{C A} \boldsymbol{\mu}_{n-1} \\ &=\mathbf{A} \boldsymbol{\mu}_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right) \end{aligned}

を得る.これは(13.89)である.

演習 13.22

c_{1} \widehat{\alpha}\left(\mathbf{z}_{1}\right)=p\left(\mathbf{z}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right) \tag{13.93}

を、

p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right) \tag{13.76}
p\left(\mathbf{z}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right) \tag{13.77}

の定義と、

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}

の結果とともに用いて

c_{1}=\mathcal{N}\left(\mathbf{x}_{1} \mid \mathbf{C} \boldsymbol{\mu}_{0}, \mathbf{CP}_{0} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right) \tag{13.96}

を導け


(13.57)の定義からスケーリング係数c_{1}c_{1} = p(\mathbf{x}_{1})である。(13.93)と比較すれば\widehat{\alpha}\left(\mathbf{z}_{1}\right) = p(\mathbf{z}_{1}\mid \mathbf{x}_{1})である。PRMLの上巻P.90の議論を用いれば、p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right)p(\mathbf{z}_{1})が与えられていればこれらの値を求めることができる。

\begin{aligned} c_1 = p(\mathbf{x}_{1}) &= p\left(\mathbf{z}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right) \\ &= \mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right) \mathcal{N}\left(\mathbf{x}_{1} \mid \mathbf{Cz}_{1}, \mathbf{\Sigma}\right) \\ &=\mathcal{N}\left(\mathbf{x}_{1} \mid \mathbf{C} \boldsymbol{\mu}_{0}, \mathbf{CP}_{0} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right) \end{aligned}

演習 13.23

c_{1} \widehat{\alpha}\left(\mathbf{z}_{1}\right)=p\left(\mathbf{z}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right) \tag{13.93}

を、

p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\mathbf{\Sigma}}\right) \tag{13.76}
p\left(\mathbf{z}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right) \tag{13.77}

の定義と、

p(\mathbf{x} \mid \mathbf{y})=\mathcal{N}\left(\mathbf{x} \mid \mathbf{\mathbf{\Sigma}}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda} \boldsymbol{\mu}\right\}, \mathbf{\mathbf{\Sigma}}\right) \tag{2.116}

の結果とともに用いて、

\boldsymbol{\mu}_{1} =\boldsymbol{\mu}_{0}+\mathbf{K}_{1}\left(\mathbf{x}_{1}-\mathbf{C} \boldsymbol{\mu}_{0}\right) \tag{13.94}
\mathbf{V}_{1} =\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0} \tag{13.95}
\mathbf{K}_{1} =\mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{CP}_{0} \mathbf{C}^{\mathrm{T}}+\mathbf{\mathbf{\Sigma}}\right)^{-1} \tag{13.97}

を導け.


力技の計算問題。

\widehat{\alpha}\left(\mathbf{z}_{1}\right)=p(\mathbf{z}_{1}\mid\mathbf{x}_{1})=\mathcal{N}(\mathbf{z}_{1}\mid \boldsymbol{\mu}_{1},\mathbf{V}_{1})(2.116)の公式と(C.7)を用いて求める。

p\left(\mathbf{z}_{1} \mid \mathbf{x}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid\left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1}\left\{\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \boldsymbol{\mu}_{0}\right\}, \left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1}\right)

これより

\begin{aligned} \mathbf{V}_{1} &=\left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{P}_{0}-\mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{\Sigma}+\mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C P}_{0} \\ &=\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0} \end{aligned}

また、今求めた\mathbf{V}_{1}を用いて、

\begin{aligned} \boldsymbol{\mu}_{1} &=\mathbf{V}_{1}\left(\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \boldsymbol{\mu}_{0}\right) \\ &=\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0}\left(\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \boldsymbol{\mu}_{0}\right) \\ &=\boldsymbol{\mu}_{0}-\mathbf{K}_{1} \mathbf{C} \boldsymbol{\mu}_{0}+\mathbf{V}_{1} \mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1} \\ &=\boldsymbol{\mu}_{0}+\mathbf{K}_{1}\left(\mathbf{x}_{1}-\mathbf{C} \boldsymbol{\mu}_{0}\right) \end{aligned}

この変形での\mathbf{V}_{1} \mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1}部分は

\begin{aligned} \mathbf{V}_{1} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1}=& \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1}-\mathbf{K}_{1} \mathbf{C} \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \\=& \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{I}-\left(\mathbf{\Sigma}+\mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right) \mathbf{\Sigma}^{-1} \\ =& \mathbf{P}_{0} \mathbf{C}^{\mathrm T}\left(\left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)^{-1}\left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)-\left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)^{-1} \mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right) \mathbf{\Sigma}^{-1} \\ =& \mathbf{P}_{0} \mathbf{C}^{\mathrm T}\left( \left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)^{-1} \mathbf{\Sigma} \right) \mathbf{\Sigma}^{-1} \\ =& \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{\Sigma}+\mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right)^{-1}=\mathbf{K}_{1} \end{aligned}

となることを利用した。

演習 13.24

以下の式で表されるようなガウス平均の定数\mathbf{a}\mathbf{c}を含んだ、

p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A z}_{n-1}, \mathbf{\Gamma}\right) \tag{13.75}
p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\mathbf{\Sigma}}\right) \tag{13.76}

の一般化について考える.

p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) =\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}+\mathbf{a}, \boldsymbol{\Gamma}\right) \tag{13.127}
p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) =\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}+\mathbf{c}, \mathbf{\Sigma}\right) \tag{13.128}

1に固定された付加的な項をもつ状態ベクトル\mathbf{z}を定義して、パラメータ\mathbf{a}\mathbf{c}に対応した列を行列\mathbf{A}\mathbf{C}に付け加えることにより、この拡張された式がこの章で議論した枠組みの中で説明できることを示せ。


\boldsymbol{\mu}_{0}^{\prime}=\left[\begin{array}{c}\boldsymbol{\mu}_{0} \\ 1\end{array}\right] \quad \mathbf{V}_{0}^{\prime}=\left[\begin{array}{ll}\mathbf{V}_{0} & \mathbf{0} \\ \mathbf{0} & 0\end{array}\right] \quad \boldsymbol{\Gamma}^{\prime}=\left[\begin{array}{ll}\mathbf{\Gamma} & \mathbf{0} \\ \mathbf{0} & 0\end{array}\right]
\mathbf{A}^{\prime}=\left[\begin{array}{ll}\mathbf{A} & \mathbf{a} \\ \mathbf{0} & 1\end{array}\right] \quad \mathbf{C}^{\prime}=\left[\begin{array}{ll}\mathbf{C} & \mathbf{c}\end{array}\right]

に、各変数を置き換えると、1に固定された\mathbf{z_n}の付加項によって(13.127), (13.128)が実現できる。
このようにしてほとんどの枠組みが実現できるが、\mathbf{z_n}の付加項が分散0であるという事実が、分散の逆行列を考慮する場合にのみ効いてきて(式13.92など)、正しくは

\left(\mathbf{P}_{n-1}^{\prime}\right)^{-1}=\left[\begin{array}{cc}\mathbf{P}_{n-1}^{-1} & \mathbf{0} \\ \mathbf{0} & 0\end{array}\right]

のようにする必要がある。

演習 13.25

この演習問題では、カルマンフィル夕方程式が独立の観測に対し用いられたときに、それらが2.3節で与えた単一ガウス分布の最尤推定法の結果に帰着することを示そう。独立の観測値の集合\left\{x_{1}, \ldots, x_{N}\right\}が与えられたときに、単ーガウス分布に従う確率変数xの平均\muを求める問題を考える。これをモデル化するために、

p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A z}_{n-1}, \mathbf{\Gamma}\right) \tag{13.75}
p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right) \tag{13.76}

で支配される線形動的システムを使うことができる。ここで、潜在変数\left\{z_{1}, \ldots, z_{N}\right\}において、各々の観測が互いに独立なため、<s>Cは単位行列であり、遷移確率A=0</s>\mathbf{C}=1,\mathbf{A}=1,\mathbf{\Gamma}=0となる。最初の状態のパラメータ\boldsymbol{\mu}_{0}, \mathbf{P}_{0}を、それぞれ\mu_0, \sigma_{0}^2と書くことにし、\mathbf{\Sigma}\sigma^2になると考える。対応するカルマンフィル夕方程式を、一般的な結果

\boldsymbol{\mu}_{n} =\mathbf{A} \boldsymbol{\mu}_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right) \tag{13.89}
\mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90}

から出発し、

\boldsymbol{\mu}_{1} =\boldsymbol{\mu}_{0}+\mathbf{K}_{1}\left(\mathbf{x}_{1}-\mathbf{C} \boldsymbol{\mu}_{0}\right) \tag{13.94}
\mathbf{V}_{1} =\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0} \tag{13.95}

を用いて書き下せ。さらに、これが直接独立なデータを考えたときに得られる結果

\mu_{N} =\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{\mathrm{ML}} \tag{2.141}
\frac{1}{\sigma_{N}^{2}} =\frac{1}{\sigma_{0}^{2}}+\frac{N}{\sigma^{2}} \tag{2.142}

と同一であることを示せ。


※ 問題文は誤っており、前提条件として\mathbf{C}=1,\mathbf{A}=1,\mathbf{\Gamma}=0となる。この上で問題を解く。

まず\boldsymbol{\mu}_{1}\mathbf{V}_{1}を求める。初期パラメータは\boldsymbol{\mu}_{0} = \mu_{0}\mathbf{P}_{0} = \sigma_{0}^{2}, \mathbf{\Sigma} = \sigma^2なので、(13.97)式は

K_{1}=\sigma_{0}^{2}\left(\sigma_{0}^{2}+\sigma^{2}\right)^{-1}=\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}

となり、これを用いて(13.94)(13.95)\mu_{1}, \mathbf{V}_{1}を求めると、

\begin{aligned} \boldsymbol{\mu}_{1} &=\mu_{0}+\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\left(x_{1}-\mu_{0}\right) \\ &=\frac{1}{\sigma_{0}^{2}+\sigma^{2}}\left(\sigma_{0}^{2} x_{1}+\sigma^{2} \mu_{0}\right) \end{aligned}\tag{A}
\begin{aligned} \mathbf{V}_{1} &=\left(1-\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\right) \sigma_{0}^{2} \\ &=\frac{\sigma_{0}^{2} \sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}} \end{aligned}\tag{B}

となる。これらの結果を、まずN=1のときの(2.141),(2.142)式と比較する。(2.143)式で\mu_{\textrm{ML}}はサンプル平均\displaystyle \mu_{\textrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}と定義されていることに注意して

\begin{aligned} \mu_{1} &=\frac{\sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}} x_{1} \\ &=\frac{1}{\sigma_{0}^{2}+\sigma^{2}}\left(\sigma_{0}^{2} x_{1}+\sigma^{2} \mu_{0}\right) \\ \sigma_{1}^{2} &=1 /\left(\frac{1}{\sigma_{0}^{2}}+\frac{1}{\sigma^{2}}\right)=\frac{\sigma_{0}^{2} \sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}} \end{aligned}

より、\boldsymbol{\mu}_{1} = \mu_{1}\mathbf{V}_{1} = \sigma_{1}^{2}とすると同じであることがわかる。

そこで、誘導に従って任意の正の整数Nについて\boldsymbol{\mu}_{N} = \mu_{N}\mathbf{V}_{N} = \sigma_{N}^{2}が成立していると仮定する。ここで\mu_{N}\sigma_{N}^{2}(2.141)(2.142)の式である。数学的帰納法の考えに基づいて、N+1のときについて調べると、まず(13.88)式の定義から

\begin{aligned} \mathbf{P}_{N}&=\mathbf{AV}_{N} \mathbf{A}^{\mathrm{T}}+\mathbf{\Gamma} \\ &=\mathbf{V}_{N} = \sigma_{N}^{2}\\ \end{aligned}

が成り立つことに注意して、カルマン利得行列の定義(13.92)から

\begin{aligned} \mathbf{K}_{N+1}&=\mathbf{P}_{N} \mathbf{C}^{\mathrm{T}}\left(\mathbf{CP}_{N} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1} \\ &=\mathbf{P}_{N}(\mathbf{P}_{N} + \sigma^2)^{-1} \\ &=\frac{\sigma_{N}^{2}}{\sigma_{N}^{2} + \sigma^{2}} \end{aligned}

となるので、(13.90)に代入して\mathbf{V}_{N+1}を計算すると

\begin{aligned} \mathbf{V}_{N+1}&=\left(1-\frac{\sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}}\right) \sigma_{N}^{2} \\ &=\frac{\sigma^{2} \sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}} \\ &=\left(\frac{1}{\sigma_{N}^{2}}+\frac{1}{\sigma^{2}}\right)^{-1} \\ &=\left(\frac{1}{\sigma_{0}{ }^{2}}+\frac{N+1}{\sigma^{2}}\right)^{-1} \\ &=\frac{\sigma_{0}{ }^{2} \sigma^{2}}{(N+1) \sigma_{0}{ }^{2}+\sigma^{2}} \\ &=\sigma_{N+1}^{2} \end{aligned}

また(13.89)式への代入から

\begin{aligned} \boldsymbol{\mu}_{N+1} &=\mu_{N}+\frac{\sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}}\left(x_{N+1}-\mu_{N}\right) \\ &=\frac{1}{\sigma_{N}^{2}+\sigma^{2}}\left(\sigma_{N}^{2} x_{N+1}+\sigma^{2} \mu_{N}\right) \\ &=\frac{\sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}}\left(x_{N+1}+\frac{\sigma^{2}}{\sigma_{N}^{2}} \frac{\sigma^{2} \mu_{0}+\sigma_{0}^{2} \sum_{n=1}^{N} x_{n}}{N \sigma_{0}^{2}+\sigma^{2}}\right) \\ &=\frac{\sigma_{0}^{2}}{(N+1) \sigma_{0}^{2}+\sigma^{2}}\left(x_{N+1}+\frac{\sigma^{2}}{\sigma_{0}^{2}} \mu_{0}+\sum_{n=1}^{N} x_{n}\right) \quad (\because \mathbf{V}_{N+1} = \sigma_{N=1}^{2}の途中の式変形 )\\ &=\frac{\sigma^{2} \mu_{0}+(N+1) \sum_{n=1}^{N+1} x_{n}}{(N+1) \sigma_{0}^{2}+\sigma^{2}} \\ &=\mu_{N+1} \end{aligned}

が得られる。したがって、独立同分布のN個の1次元観測値\left\{x_{1}, \ldots, x_{N}\right\}が得られている場合のカルマンフィルタ方程式は、(2.141),(2.142)式と同型になることが示された。

演習 13.26

13.3節の線形動的システムの特別な例について考える。この例は、確率的PCAと等価なものであり、したがって、遷移行列は\mathbf{A}=\mathbf{0}、共分散は\mathbf{\Gamma}=\mathbf{I}、ノイズの共分散は\mathbf{\Sigma}=\sigma^2\mathbf{I}である。行列の恒等式

\left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7}

を用いることにより、出力密度行列\mathbf{C}\mathbf{W}と書くとき、

\mu_{n} =\mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \mu_{n-1}\right) \tag{13.89}
\mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90}

で定義される隠れ状態の事後確率が、

p(\mathbf{z} \mid \mathbf{x})=\mathcal{N}\left(\mathbf{z} \mid \mathbf{M}^{-1} \mathbf{W}^{\mathrm{T}}(\mathbf{x}-\boldsymbol{\mu}), \sigma^{2} \mathbf{M}^{-1}\right) \tag{12.42}

\boldsymbol{\mu}=\mathbf{0}の仮定の下での確率的PCAのときの結果(12.42)と同じになることを示せ.


(13.88)式〜(13.92)式に\mathbf{A}=\mathbf{O}\mathbf{\Gamma}=\mathbf{I}\mathbf{\Sigma}=\sigma^2\mathbf{I}\mathbf{C}=\mathbf{W}を代入して、

\begin{aligned} \mathbf{P}_{n-1} &= \mathbf{A}\mathbf{V}_{n-1}\mathbf{A}^{\rm T}+\boldsymbol\Gamma \\ &= \mathbf{I} \end{aligned}\tag{13.88}
\begin{aligned} \mathbf{K}_n &= \mathbf{P}_{n-1}\mathbf{C}^{\rm T}(\mathbf{CP}_{n-1}\mathbf{C}^{\rm T}+\boldsymbol\Sigma)^{-1} \\ &= \mathbf{W}^{\rm T} (\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2 \mathbf{I})^{-1} \end{aligned}\tag{13.92}
\begin{aligned} \mu_{n} &=\mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \mu_{n-1}\right)\quad (13.89) \\ &= \mathbf{W}^{\rm T} (\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2 \mathbf{I})^{-1}\mathbf{x}_{n}\\ &= \frac{1}{\sigma^2}\mathbf{W}^{\rm T} (\mathbf{I}+\frac{1}{\sigma^2} \mathbf{W}\mathbf{W}^{\rm T})^{-1}\mathbf{x}_{n}\\ &= \frac{1}{\sigma^2} (\mathbf{I}+ \mathbf{W}^{\rm T}\frac{1}{\sigma^2}\mathbf{W})^{-1}\mathbf{W}^{\rm T}\mathbf{x}_{n}\ \ \ \because {\rm (C.6)の恒等式}(\mathbf{I+AB)^{-1}A=A(I+BA)^{-1}}\\ &= (\sigma^2\mathbf{I}+ \mathbf{W}^{\rm T}\mathbf{W})^{-1}\mathbf{W}^{\rm T}\mathbf{x}_{n} \\ &= \mathbf{M}^{-1}\mathbf{W}^{\rm T}\mathbf{x}_{n} \end{aligned}
\begin{aligned} \mathbf{V}_{n} &=\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \quad (13.90) \\ &= \mathbf{I}-\{ \mathbf{W}^{\rm T} (\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2 \mathbf{I})^{-1}\}\mathbf{W}\\ &= \left[ \mathbf{I}- \left( -\mathbf{W}^{\rm T}\right) \left\{ \mathbf{W}\mathbf{W}^{\rm T}+\sigma^2\mathbf{I} + \mathbf{W}\left(-\mathbf{W}^{\rm T}\right) \right\}^{-1} \mathbf{W} \right] ^{-1}\ \ \ \because {\rm (C.7)の恒等式}\left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \\ &= \left( \mathbf{I} + \mathbf{W}^{\rm T} (\sigma^2)^{-1} \mathbf{W} \right)^{-1}\\ &= \sigma^2 \left( \sigma^2 \mathbf{I} + \mathbf{W}^{\rm T} \mathbf{W} \right)^{-1}\\ &= \sigma^2 \mathbf{M}^{-1} \end{aligned}

ここで求めた\mu_n\mathbf{V}_nは、(12.42)式にて\mu=\mathbf{0}とした場合の結果に一致する。
なお、\mathbf{V}_nの式変形でWoodburyの公式を適用するときの対応関係は、\mathbf{A}=\mathbf{I}, \ \mathbf{B}=-\mathbf{W}^{\rm T},\ \mathbf{C}=\mathbf{W}, \ \mathbf{D}=\mathbf{WW}^{\rm T}+\sigma^2\mathbf{I}である。

演習 13.27

13.3節で議論した形式をもつ、ある線形動的システムについて考察する。このシステムは観測されるノイズの大きさが0であり、したがって\mathbf{\Sigma}=\mathbf{0}である。\mathbf{C}=\mathbf{I}のとき、\mathbf{z}_{n}の事後分布は、平均が\mathbf{x}_{n}となり、分散が0となることを示せ。これは、もしノイズがなければ、過去のすべての観測を無視して現在の観測値\mathbf{x}_{n}を用いて状態変数\mathbf{z}_{n}を推定すればよいという我々の直感とつじつまが合う.


\mathbf{z}_nの事後分布は\widehat{\alpha}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mu_{n}, \mathbf{V}_{n}\right)で表されるので,

\mu_{n} =\mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right)\tag{13.89}
\mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}\tag{13.90}
\mathbf{K}_{n}=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1}\tag{13.92}

\mathbf{\Sigma}=\mathbf{0}, \mathbf{C}=\mathbf{I}を代入する.その結果\mathbf{K}_n=\mathbf{I},\mathbf{V}_n=\mathbf{0},\mu_n=\mathbf{x}_nが得られ,\mathbf{z}_{n}の事後分布は、平均が\mathbf{x}_{n}となることがわかる.

演習 13.28

13.3節の線形動的システムの特別な例について考える.この例では、状態変数\mathbf{z}_nは前の状態の状態変数と等しくなるよう制約されており、したがって、\mathbf{A}=\mathbf{I}であり、\mathbf{\Gamma}=\mathbf{0}である。簡単のために、さらに\mathbf{C}=\mathbf{I}\mathbf{P}_{0}\to \inftyを仮定する。この仮定により\mathbf{z}の初期条件は重要ではなくなり、予測値はデータのみから決定される。帰納法による証明を用いて、状態\mathbf{z}_{n}の事後平均が、\mathbf{x}_{1},\ldots,\mathbf{x}_{n}の平均で与えられることを示せ。このことは、もし状態変数が一定なら、最も良い推定値は観測値を平均することにより得られるという直感と一致する。


数学的帰納法により証明する.まずn=1のとき(13.75),(13.77)についてガウス分布の条件付き分布に対する一般的な性質(2.113)-(2.117)を適用し\mathbf{P}_0\rightarrow\infty, \mathbf{C}=\mathbf{I}を用いると

p\left(\mathbf{z}_{1} \mid \mathbf{x}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{1}, \mathbf{V}_{1}\right)

が得られる.ただし

\begin{aligned} \boldsymbol{\mu}_{1} &=\mathbf{V}_{1}\left(\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \boldsymbol{\mu}_{0}\right)=\mathbf{x}_{1} \\ \mathbf{V}_{1} &=\left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1}=\boldsymbol{\Sigma} \end{aligned}

である.

いまNのとき

\begin{aligned} \boldsymbol{\mu}_{N} &=\overline{\mathbf{x}}_{N}=\frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_{n} \\ \mathbf{V}_{N} &=\frac{1}{N} \boldsymbol{\Sigma} \end{aligned}

が成り立つと仮定する.また

\mathbf{P}_{n-1}=\mathbf{A} \mathbf{V}_{n-1} \mathbf{A}^{\mathrm{T}}+\Gamma\tag{13.88}

から\mathbf{P}_{N}=\mathbf{V}_{N}=\frac{1}{N} \Sigmaが成り立つ.

\mathbf{C}=\mathbf{I}, \mathbf{\Gamma}=\mathbf{0}

\mathbf{K}_{n}=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\boldsymbol{\Sigma}\right)^{-1}\tag{13.92}

を用いてN+1のとき

\begin{aligned} \mathbf{K}_{N+1} &=\mathbf{P}_{N} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{N} \mathbf{C}^{\mathrm{T}}+\boldsymbol{\Sigma}\right)^{-1} \\ &=\mathbf{P}_{N}\left(\mathbf{P}_{N}+\boldsymbol{\Sigma}\right)^{-1} \\ &=\frac{1}{N} \boldsymbol{\Sigma}\left(\frac{1}{N} \boldsymbol{\Sigma}+\boldsymbol{\Sigma}\right)^{-1} \\ &=\frac{1}{N} \boldsymbol{\Sigma}\left(\frac{N+1}{N} \boldsymbol{\Sigma}\right)^{-1} \\ &=\frac{1}{N+1} \mathbf{I} \end{aligned}

この結果を(13.89)と(13.90)に代入して

\begin{aligned} \boldsymbol{\mu}_{N+1} &=\mathbf{A} \mu_{N}+\mathbf{K}_{N+1}\left(\mathbf{x}_{N+1}-\mathbf{C A} \mu_{N}\right) \\ &=\boldsymbol{\mu}_{N}+\frac{1}{N+1}\left(\mathbf{x}_{N+1}-\boldsymbol{\mu}_{N}\right) \\ &=\overline{\mathbf{x}}_{N}+\frac{1}{N+1}\left(\mathbf{x}_{N+1}-\overline{\mathbf{x}}_{N}\right) \\ &=\frac{1}{N+1} \mathbf{x}_{N+1}+\left(1-\frac{1}{N+1}\right) \frac{1}{N} \sum_{n=1}^{N} \\ &=\frac{1}{N+1} \sum_{n=1}^{N+1} \mathbf{x}_{n}=\overline{\mathbf{x}}_{N+1} \\ \mathbf{V}_{N+1} &=\left(\mathbf{I}-\mathbf{K}_{N+1} \mathbf{C}\right) \mathbf{P}_{N} \\ &=\left(\mathbf{I}-\frac{1}{N+1} \mathbf{I}\right) \frac{1}{N} \boldsymbol{\Sigma} \\ &=\frac{1}{N+1} \boldsymbol{\Sigma} \end{aligned}

が成り立つ.
以上からN+1の場合でもNと同様の形式でかけるため全てのN\geq 1に対して成り立つ.

演習 13.29

ガウシアン線形動的システムにおいて、バックワード再帰式

c_{n+1} \widehat{\beta}\left(\mathbf{z}_{n}\right)=\int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}\right) p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} \tag{13.99}

から出発して、RTS平滑化方程式

\widehat{\boldsymbol{\mu}}_{n}=\boldsymbol{\mu}_{n}+\mathbf{J}_{n}\left(\widehat{\mu}_{n+1}-\mathbf{A} \mu_{n}\right) \tag{13.100}
\widehat{\mathbf{V}}_{n}=\mathbf{V}_{n}+\mathbf{J}_{n}\left(\widehat{\mathbf{V}}_{n+1}-\mathbf{P}_{n}\right) \mathbf{J}_{n}^{\mathrm{T}} \tag{13.101}

を導け.


(13.99)の両辺に\widehat{\alpha}\left(\mathbf{z}_{n}\right)をかけて\gamma\left(\mathbf{z}_{n}\right)=\widehat{\alpha}\left(\mathbf{z}_{n}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\mu}_{n}, \widehat{\mathbf{V}}_{n}\right)を用いると

c_{n+1} \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)=\widehat{\alpha}\left(\mathbf{z}_{n}\right) \int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}\right) p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}\right) \mathrm{d} \mathbf{z}_{n+1}\tag{1}

が得られる.また

p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A z}_{n-1}, \mathbf{\Gamma}\right) \tag{13.75}

\widehat{\alpha}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mu_{n}, \mathbf{V}_{n}\right)\tag{13.84}

について(13.75)と(13.84)の辺々かけた式に対して

(2.113)-(2.117)の議論,

\mathbf{x} の周辺ガウス分布と, \mathbf{x} が与えられたときの \mathbf{y} の条件付きガウス分布が次式で 与えられたとする.

p(\mathbf{x}) =\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right)\tag{2.113}
p(\mathbf{y} \mid \mathbf{x}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right)\tag{2.114}

\mathbf{y} の周辺分布と , \mathbf{y} が与えられたときの \mathbf{x} の条件付き分布は

p(\mathbf{y}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}
p(\mathbf{x} \mid \mathbf{y}) =\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\Sigma}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\boldsymbol{\Lambda} \boldsymbol{\mu}\right\}, \boldsymbol{\Sigma}\right)\tag{2.116}

で与えられる. ただし,

\Sigma=\left(\Lambda+\mathrm{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}\tag{2.117}

である.』を適切に変数の対応をとり,\mathbf{z}_n,\mathbf{z}_{n+1}の同時分布について\mathbf{z}_nが与えられたときの\mathbf{z}_{n+1}\mathbf{z}_nの積で表されていた形式をの同時分布について\mathbf{z}_{n+1}が与えられたときの\mathbf{z}_{n}\mathbf{z}_{n+1}の積で表されていた形式に書き換えると

\begin{aligned} \widehat{\alpha}\left(\mathbf{z}_{n}\right) p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}\right) &=\mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n+1} \mid \mathbf{A} \mathbf{z}_{n}, \boldsymbol{\Gamma}\right) \\ &=\mathcal{N}\left(\mathbf{z}_{n+1} \mid \mathbf{A} \boldsymbol{\mu}_{n}, \mathbf{A} \mathbf{V}_{n} \mathbf{A}+\boldsymbol{\Gamma}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \end{aligned}

が得られる.ここで(2.116)に対応する形で\mathbf{m}_n

\mathbf{m}_{n}=\mathbf{M}_{n}\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \mathbf{z}_{n+1}+\mathbf{V}_{n}^{-1} \boldsymbol{\mu}_{n}\right)\tag{2}

と表される.また(C.7)と(13.102) \mathbf{J}_{n}=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{P}_{n}\right)^{-1}の定義を用いて

\begin{aligned} \mathbf{M}_{n} &=\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \mathbf{A}+\mathbf{V}_{n}^{-1}\right)^{-1} \\ &=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\boldsymbol{\Gamma}+\mathbf{A} \mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\right)^{-1} \mathbf{A V}_{n} \\ &=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \\ &=\left(\mathbf{I}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A}\right) \mathbf{V}_{n} \\ &=\left(\mathbf{I}-\mathbf{J}_{n} \mathbf{A}\right) \mathbf{V}_{n} \end{aligned}

とかける.

(1)の右辺において\widehat{\alpha}\left(\mathbf{z}_{n}\right)を積分の中に含め,\mathbf{M}_nについての結果を代入して(13.85)-(13.88)と(13.98)を用いて

\begin{aligned} c_{n+1} \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right) &=\int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}\right) \mathcal{N}\left(\mathbf{z}_{n+1} \mid \mathbf{A} \boldsymbol{\mu}_{n}, \mathbf{P}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} & \\ &=\int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) c_{n+1} \widehat{\alpha}\left(\mathbf{z}_{n+1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} \\ &=c_{n+1} \int \gamma\left(\mathbf{z}_{n+1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} \\ &=c_{n+1} \int \mathcal{N}\left(\mathbf{z}_{n+1} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} . \end{aligned}

したがって(2)と(2.113)-(2.115)を使って

\widehat{\boldsymbol{\mu}}_{n} =\mathbf{M}_{n}\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \widehat{\boldsymbol{\mu}}_{n+1}+\mathbf{V}_{n}^{-1} \boldsymbol{\mu}_{n}\right) \tag{3}
\widehat{\mathbf{V}}_{n} =\mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \widehat{\mathbf{V}}_{n+1} \boldsymbol{\Gamma}^{-1} \mathbf{A} \mathbf{M}_{n}+\mathbf{M}_{n}\tag{4}

と書くことができる.

また\mathbf{M}_{n}についての計算の途中で出てきた

\mathbf{M}_{n}=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n}

と(13.102) \mathbf{J}_{n}=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{P}_{n}\right)^{-1}を使って

\begin{aligned} \mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} &=\left(\mathbf{V}_n-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n}\right) \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{I}-\mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\right) \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{I}-\mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}-\mathbf{P}_{n}^{-1} \boldsymbol{\Gamma}+\mathbf{P}_{n}^{-1} \boldsymbol{\Gamma}\right) \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{I}-\mathbf{P}_{n}^{-1} \mathbf{P}_{n}+\mathbf{P}_{n}^{-1} \boldsymbol{\Gamma}\right) \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1}=\mathbf{J}_{n} \end{aligned}

これらの結果から(3)を(13.100)のように書き換えることができる
また(13.102), \mathbf{M}_{n}=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n}\mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1}=\mathbf{J}_{n}を用いて(4)を

\begin{aligned} \widehat{\mathbf{V}}_{n} &=\mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \widehat{\mathbf{V}}_{n+1} \boldsymbol{\Gamma}^{-1} \mathbf{A} \mathbf{M}_{n}+\mathbf{M}_{n} \\ &=\mathbf{J}_{n} \widehat{\mathbf{V}}_{n+1} \mathbf{J}_{n}^{\mathrm{T}}+\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \\ &=\mathbf{V}_{n}+\mathbf{J}_{n}\left(\widehat{\mathbf{V}}_{n+1}-\mathbf{P}_{n}\right) \mathbf{J}_{n}^{\mathrm{T}} \end{aligned}

のようにして(13.101)の形に書き直すことができる.

演習 13.30

状態空間モデルの2つ組の事後周辺分布の結果

\xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)=\left(c_{n}\right)^{-1} \widehat{\alpha}\left(\mathbf{z}_{n-1}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right) \tag{13.65}

から出発して、ガウシアン線形動的システムの場合の特別な形式

\begin{aligned} \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)&=\left(c_{n}\right)^{-1} \widehat{\alpha}\left(\mathbf{z}_{n-1}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right) \\ &=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C z}_{n}, \mathbf{\Sigma} \right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \widehat{\alpha}\left(\mathbf{z}_{n}\right)} \end{aligned} \tag{13.103}

を導け.


(13.65)式の導出は演習13.15を参照。
これに

\begin{aligned} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) &=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \Gamma\right)& (13.75) \\ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) &=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right)& (13.76) \\ \widehat{\alpha}\left(\mathbf{z}_{n-1}\right)&=\mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) & (13.84) \\ \gamma\left(\mathbf{z}_{n}\right)&=\widehat{\alpha}\left(\mathbf{z}_{n}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right) & (13.98) \end{aligned}

を組み合わせれば

\xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C z}_{n}, \mathbf{\Sigma} \right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \widehat{\alpha}\left(\mathbf{z}_{n}\right)} \tag{13.103}

が直接導出される。

演習 13.31

\begin{aligned} \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)&=\left(c_{n}\right)^{-1} \widehat{\alpha}\left(\mathbf{z}_{n-1}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right) \\ &=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C z}_{n}, \mathbf{\Sigma}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\mu}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \widehat{\alpha}\left(\mathbf{z}_{n}\right)} \end{aligned} \tag{13.103}

の結果から出発し、

\widehat{\alpha}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right) \tag{13.84}

を用いて\widehat{\alpha}\left(\mathbf{z}_{n}\right)を置き換えることにより、\mathbf{z}_{n}\mathbf{z}_{n-1}の間の共分散の結果

\operatorname{cov}\left[\mathbf{z}_{n-1}, \mathbf{z}_{n}\right]=\mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n} \tag{13.104}

を確かめよ。


(2.115)-(2.117)を使用すると

\begin{aligned} & \mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \\ =& \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \boldsymbol{\mu}_{n-1}, \mathbf{\Gamma}+\mathbf{A} \mathbf{V}_{n-1} \mathbf{A}^{\mathrm T}\right) \times \mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{Y}\left(\mathbf{A}^{\mathrm T} \mathbf{\Gamma}^{-1} \mathbf{z}_{n}+\mathbf{V}_{n-1}^{-1} \boldsymbol{\mu}_{n-1}\right), \mathbf{Y}\right) \end{aligned}

となる。ただし、

\begin{aligned} \mathbf{Y}&=\left(\mathbf{V}_{n-1}^{-1}+\mathbf{A}^{\mathrm{T}} \mathbf{\Gamma}^{-1} \mathbf{A}\right)^{-1} \\ &=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mu_{n-1}, \mathbf{P}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{J}_{n-1} \mathbf{z}_{n}+\left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \mu_{n-1},\left(\mathbf{I}-\mathbf{J}_{n-1} A\right) \mathbf{V}_{n-1}\right) \end{aligned}

である。上記式展開は(13.88)と

\begin{aligned} \mathbf{Y}&=\left(\mathbf{V}_{n-1}^{-1}+A^{\mathrm{T} } \Gamma^{-1} A\right)^{-1} \\ &=\mathbf{V}_{n-1}-\mathbf{V}_{n-1} A^{\mathrm{T} }\left(\Gamma+A \mathbf{V}_{n-1} A^{\mathrm{T} }\right)^{-1} A \mathbf{V}_{n-1}\quad(C.7) \\ &=\mathbf{V}_{n-1}-\mathbf{V}_{n-1} A^{\mathrm{T} } \mathbf{P}_{n-1}^{-1} A \mathbf{V}_{n-1}\quad(13.88) \\ &=\mathbf{V}_{n-1}-J_{n-1} A \mathbf{V}_{n-1}\quad(13.102) \\ &=\left(\mathbf{I}-J_{n-1} A\right) \mathbf{V}_{n-1} \end{aligned}
\begin{aligned} \mathbf{Y}A^{\mathrm{T}} \Gamma^{-1} &=\left(\mathbf{V}_{n-1}^{-1}+A^{\mathrm{T}} \Gamma^{-1} A\right)^{-1} A^{\mathrm{T}} \Gamma^{-1} \\ &=\mathbf{V}_{n-1} A^{\mathrm{T}}\left(A \mathbf{V}_{n-1} A^{\mathrm{T}}+\Gamma\right)^{-1}\quad(C.5) \\ &=\mathbf{V}_{n-1} A^{\mathrm{T}} \mathbf{P}_{n-1}^{-1}\quad(13.88) \\ &=J_{n-1}\quad(13.102) \end{aligned}

を使用した。

さらにここで(2.115)-(2.117)を使用すると

\begin{aligned} &\ \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \boldsymbol{\mu}_{n-1}, \mathbf{P}_{n-1}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right) \\ =&\ \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C A \mu _ { n - 1 }}, \mathbf{\Sigma}+\mathbf{C P _ { n - 1 }} \mathbf{C}^{\mathrm T}\right) \times \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{M}\left(\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{n}+\mathbf{P}_{n-1}^{-1} \mathbf{A} \boldsymbol{\mu}_{n-1}\right), \mathbf{M}\right) \end{aligned}

ただし、

\begin{aligned} \mathbf{M}&=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{K}_{n} \mathbf{x}_{n}+\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \mathbf{P}_{n-1}^{-1} \mathbf{A} \mu_{n-1},\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}\right)\quad(13.91) \\ &=c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \mu_{n-1}\right),\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}\right) \\ &=c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right)\quad(13.89)、(13.90) \\ &=c_{n} \hat{\alpha}\left(\mathbf{z}_{n}\right) \end{aligned}

上記1行目の式は

\begin{aligned} \mathbf{M} &=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{P}_{n-1}-\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{\Sigma}+\mathbf{C} \mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C} \mathbf{P}_{n-1} \quad(C.7) \\ &=\mathbf{P}_{n-1}-\mathbf{K}_{n} \mathbf{C} \mathbf{P}_{n-1}\quad(13.92) \\ &=\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \\ \mathbf{M} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1}&=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \mathbf{C}^{T} \mathbf{\Sigma}^{-1} \\ &=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C} \mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1}\quad(C.5) \\ &=\mathbf{K}_{n}\quad(13.92) \end{aligned}

これらを(13.103)に入れると

\begin{aligned} \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)&=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{J}_{n-1} \mathbf{z}_{n}+\left(\mathbf{\mathbf{I}}-\mathbf{J}_{n-1} \mathbf{A}\right) \boldsymbol{\mu}_{n-1},\left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \mathbf{V}_{n-1}\right) c_{n} \hat{\alpha}\left(\mathbf{z}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \hat{\alpha}\left(\mathbf{z}_{n}\right)} \\ &=\mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{J}_{n-1} \mathbf{z}_{n}+\left(\mathbf{\mathbf{I}}-\mathbf{J}_{n-1} \mathbf{A}\right) \boldsymbol{\mu}_{n-1},\left(\mathbf{\mathbf{I}}-\mathbf{J}_{n-1} \mathbf{A}\right) \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)\quad(13.103)^{\prime} \end{aligned}

を得る。

(13.103)^{\prime}の右辺は線形ガウスモデルの周辺分布と条件分布の積になっているので2.3.3節より\mathbf{z}_{n-1}\mathbf{z}_{n}の同時分布はガウス分布で(2.108)より平均は

\begin{aligned} \mathbf{E}\left[\left(\begin{array}{c} \mathbf{z}_{n} \\ \mathbf{z}_{n-1} \end{array}\right)\right] &=\left(\begin{array}{c} \widehat{\boldsymbol{\mu}}_{n} \\ \mathbf{J}_{n-1} \widehat{\boldsymbol{\mu}}_{n}+\left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \boldsymbol{\mu}_{n-1} \end{array}\right) \\ &=\left(\begin{array}{c} \widehat{\boldsymbol{\mu}}_{n} \\ \boldsymbol{\mu}_{n-1}+\mathbf{J}_{n-1}\left(\widehat{\boldsymbol{\mu}}_{n}-\mathbf{A} \boldsymbol{\mu}_{n-1}\right) \end{array}\right) \\ &=\left(\begin{array}{c} \widehat{\boldsymbol{\mu}}_{n} \\ \widehat{\boldsymbol{\mu}}_{n-1} \end{array}\right)\quad(13.100) \end{aligned}

となる。(2.105)より\mathbf{z}_{n-1}\mathbf{z}_{n}の同時分布の共分散分布は

\operatorname{cov}\left[\left(\begin{array}{l} \mathbf{z}_{n} \\ \mathbf{z}_{n-1} \end{array}\right)\right]=\left(\begin{array}{cc} \widehat{\mathbf{V}}_{n} & \widehat{\mathbf{V}}_{n} \mathbf{J}_{n-1}^{\mathrm T} \\ \mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n} & \left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \mathbf{V}_{n-1}+\mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n} \mathbf{J}_{n-1}^{\mathrm T} \end{array}\right)

となる。(2.78)より、\mathbf{z}_{n-1}\mathbf{z}_{n}の共分散は2行1列の要素になるので

\operatorname{cov}\left[\mathbf{z}_{n-1}, \mathbf{z}_{n}\right]=\mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n}\tag{13.104}

を得る。

演習 13.32

線形動的システムにおける\boldsymbol{\mu}_{0}\mathbf{P}_{0}に対するMステップの方程式の結果

\boldsymbol{\mu}_{0}^{\text{new}}=\mathbb{E}\left[\mathbf{z}_{1}\right] \tag{13.110}
\mathbf{P}_{0}^{\text{new}}=\mathbb{E}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-\mathbb{E}\left[\mathbf{z}_{1}\right] \mathbb{E}\left[\mathbf{z}_{1}^{\mathrm{T}}\right] \tag{13.111}

を確かめよ.


状態空間モデルの同時分布は

p\left(\mathbf{x}_{1}, \ldots, \mathbf{x}_{N}, \mathbf{z}_{1}, \ldots, \mathbf{z}_{N}\right)=p\left(\mathbf{z}_{1}\right)\left[\prod_{n=2}^{N} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)\right] \prod_{n=1}^{N} p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) \tag{13.6}

線形動的システム(LDS)を導入すると、(13.75)(13.76)(13.77)より

\begin{aligned} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) &=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \\ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) &=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right) \\ p\left(\mathbf{z}_{1}\right)&=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right) \end{aligned}

となる。P.361より完全データの対数尤度関数は、(13.6)の対数をとって

\begin{aligned} \ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})=& \ln p\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right)+\sum_{n=2}^{N} \ln p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{A}, \mathbf{\Gamma}\right) \\ &+\sum_{n=1}^{N} \ln p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}, \mathbf{C}, \mathbf{\Sigma}\right) \end{aligned} \tag{13.108}

次に事後分布について

Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text {old}}\right)=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}[\ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})] \tag{13.109}

これに代入すると

\begin{aligned} Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text {old}}\right)&=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\ln \mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right)+\sum_{n=2}^{N} \ln \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A}{\mathbf{z}_{n-1}}, \mathbf{\Gamma}\right)+\sum_{n=1}^{N} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right)\right] \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\frac{1}{2} \ln \left|\mathbf{P}_{0}\right|-\frac{1}{2}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm T} \mathbf{P}_{0}^{-1}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\right]+\text { const. } \end{aligned}

ここで\boldsymbol{\mu}_{0}あるいは\mathbf{P}_{0}に依存しないすべての項はconst.項に吸収させている。
これを\boldsymbol{\mu}_{0}について最大化すると

\begin{aligned} \frac{\partial Q}{\partial \boldsymbol{\mu}_{0}}&=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\frac{1}{2} \cdot-2 \mathbf{P}_{0}^{-1}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\right]\\ &=\mathbf{P}_{0}^{-1}\left(\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[ \mathbf{z}_{1} \right]-\boldsymbol{\mu}_{0}\right)=0\\ \boldsymbol{\mu}_{0}^{\text {new}}&=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[ \mathbf{z}_{1} \right] \end{aligned}

\mathbf{P}_{0}について最大化すると

\frac{\partial Q}{\partial \mathbf{P}_{0}}=-\frac{1}{2}\left[\mathbf{P}_{0}^{-\mathrm{T}}+\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\mathbf{P}_{0}^{-\mathrm{T}}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}} \mathbf{P}_{0}^{-\mathrm{T}}\right]\right] =0
\begin{aligned} \left(\mathbf{P}^{\textrm{new}}_{0}\right)^{-\mathrm{T}} &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\left(\mathbf{P}^{\textrm{new}}_{0}\right)^{-\mathrm{T}}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}} \left(\mathbf{P}^{\textrm{new}}_{0}\right)^{-\mathrm{T}}\right] \\ \mathbf{P}^{\textrm{new}}_{0} &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}\right] \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-2 \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \boldsymbol{\mu}_{0}^{\mathrm{T}}+\boldsymbol{\mu}_{0} \boldsymbol{\mu}_{0}^{\mathrm{T}} \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-2 \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right]^{\mathrm{T}}+\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right]^{\mathrm{T}}\\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right]^{\mathrm{T}} \end{aligned}

演習 13.33

線形動的システムにおける\mathbf{A}\mathbf{\Gamma}に対するMステップの方程式の結果

\mathbf{A}^{\text{new}}=\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)^{-1} \tag{13.113}
\begin{aligned} \mathbf{\Gamma}^{\text {new}}=&\frac{1}{N-1} \sum_{n=2}^{N}\left\{\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]-\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n}^{\mathrm{T}}\right]\right. \\ & \left. -\ \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.114}

を確かめよ.


演習13.32のQ\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text{old}}\right)のうち、\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{Az}_{n-1}, \mathbf{\Gamma}\right)に関係する項のみを抜き出して

\begin{aligned} Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text{old}}\right) &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N} \ln \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{Az}_{n-1}, \mathbf{\Gamma}\right)\right]+\text{ const.} \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N}\left\{-\frac{1}{2} \ln |\mathbf{\Gamma}|-\frac{1}{2}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)^{\mathrm T} \mathbf{\Gamma}^{-1}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)\right\}\right]+\text{ const.} \end{aligned}

\mathbf{A}について

\begin{aligned} \frac{\partial Q}{\partial \mathbf{A}} &=-\frac{1}{2} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N} \frac{\partial}{\partial \mathbf{A}}\left[\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)^{\mathrm T} \mathbf{\Gamma}^{-1}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)\right]\right] \\ &=-\frac{1}{2} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N}\left(-2 \mathbf{\Gamma}^{-1}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right) \mathbf{z}_{n-1}^{\mathrm T}\right)\right] \\ &=\sum_{n=2}^{N} \mathbf{\Gamma}^{-1} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm T}\right]-\sum_{n=2}^{N} \mathbf{\Gamma}^{-1} \mathbf{A} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm T}\right] \end{aligned}

最大化するために\frac{\partial Q}{\partial \mathbf{A}} =0として

\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm T}\right] = \sum_{n=2}^{N} \mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm T}\right]
\mathbf{A}^{\text{new}}=\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)^{-1} \tag{13.113}

同様に\mathbf{\Gamma}について

\frac{\partial Q}{\partial \mathbf{\Gamma}}=-\frac{1}{2} \sum_{n=2}^{N}\left[\mathbf{\Gamma}^{-\mathrm T}+\mathbb{E}\left[-\mathbf{\Gamma}^{-\mathrm T}\left(\mathbf{z}_{n}-\mathbf{A} \mathbf{z}_{n-1}\right)\left(\mathbf{z}_{n}-\mathbf{A} \mathbf{z}_{n-1}\right)^{\mathrm T} \mathbf{\Gamma}^{-\mathrm T}\right]\right]=0

最大化するために\frac{\partial Q}{\partial \mathbf{\Gamma}}=0として

\begin{aligned} \sum_{n=2}^{N}\left(\mathbf{\Gamma}^{\text{new}}\right)^{-\mathrm{T}} &=\sum_{n=2}^{N} \mathbb{E}\left[\left(\mathbf{\Gamma}^{\text{new}}\right)^{-\mathrm{T}}\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)^{\mathrm T}\left(\mathbf{\Gamma}^{\text{new}}\right)^{-\mathrm{T}}\right] \\ \sum_{n=2}^{N} \mathbf{\Gamma}^{\text{new}} &=\sum_{n=2}^{N} \mathbb{E}\left[\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)^{\mathrm T}\right] \\ (N-1) \mathbf{\Gamma}^{\text{new}}&=\sum_{n=2}^{N}\left\{\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm T}\right]-\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n}^{\mathrm T}\right]-\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm T}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm T}+\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm T}\right] \mathbf{A}^{\text{new}}\right\} \end{aligned}
\begin{aligned} \mathbf{\Gamma}^{\text {new}}=&\frac{1}{N-1} \sum_{n=2}^{N}\left\{\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]-\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n}^{\mathrm{T}}\right]\right. \\ & \left. -\ \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.114}

演習 13.34

線形動的システムにおける\mathbf{C}\mathbf{\Sigma}に対するMステップの方程式の結果

\mathbf{C}^{\text{new}} = \left(\sum_{n=1}^{N} \mathbf{x}_{n} \mathbb{E}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\right)\left(\sum_{n=1}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\right)^{-1} \tag{13.115}
\begin{aligned} \mathbf{\Sigma}^{\text{new}} = & \frac{1}{N} \sum_{n=1}^{N}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm{T}}-\mathbf{C}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n}\right] \mathbf{x}_{n}^{\mathrm{T}}\right.\\ &\left.-\mathbf{x}_{n} \mathbb{E}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{C}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.116}

を確かめよ.


演習13.32のQ\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text{old}}\right)と同様、\mathbf{C}\mathbf{\Sigma}についての項を抜き出す。

\begin{aligned} Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text{old}}\right) &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=1}^{N} \ln N\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right)\right]+\text { const.} \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=1}^{N}\left(-\frac{1}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2}\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)\right)\right]+\text { const.} \end{aligned}

\mathbf{C}について、これは演習13.33の\mathbf{A}^{\textrm{new}}についての変形とほぼ同様に

\frac{\partial Q}{\partial \mathbf{C}}=\sum_{n=1}^{N} \mathbf{\Sigma}^{-1} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{x}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]-\sum_{n=1}^{N} \mathbf{\Sigma}^{-1} \mathbf{C} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]

\frac{\partial Q}{\partial \mathbf{C}}=0として

\mathbf{C}^{\textrm{new}} \sum_{n=1}^{N} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{x}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]=\sum_{n=1}^{N} \mathbf{x}_{n} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]
\mathbf{C}^{\text{new}} = \left(\sum_{n=1}^{N} \mathbf{x}_{n} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\right)\left(\sum_{n=1}^{N} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\right)^{-1} \tag{13.115}

同様に\mathbf{\Sigma}について

\frac{\partial Q}{\partial \mathbf{\Sigma}}=-\frac{1}{2} \sum_{n=1}^{N}\left[\mathbf{\Sigma}^{-\mathrm{T}}+\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\mathbf{\Sigma}^{-\mathrm{T}}\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)^{\mathrm{T}} \mathbf{\Sigma}^{-\mathrm{T}}\right]\right]

\frac{\partial Q}{\partial \mathbf{\Sigma}}=0として

\sum_{n=1}^{N}\left( \mathbf{\Sigma}^{\textrm{new}} \right)^{-\mathrm{T}}=\sum_{n=1}^{N} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\left(\mathbf{\Sigma}^{\textrm{new}}\right)^{-\mathrm{T}}\left(\mathbf{x}_{n}-\mathbf{C}^{\textrm{new}}\mathbf{z}_{n}\right)\left(\mathbf{x}_{n}-\mathbf{C}^{\textrm{new}}\mathbf{z}_{n}\right)^{\mathrm{T}}\left(\mathbf{\Sigma}^{\textrm{new}}\right)^{-\mathrm{T}}\right]
\begin{aligned} \mathbf{\Sigma}^{\text{new}} = & \frac{1}{N} \sum_{n=1}^{N}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm{T}}-\mathbf{C}^{\text{new}} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n}\right] \mathbf{x}_{n}^{\mathrm{T}}\right.\\ &\left.-\mathbf{x}_{n} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{C}^{\text{new}} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.116}

Discussion