🧠

PRML 第10章(10.1から10.17まで)解答例

2022/05/15に公開

はじめに

PRML解答例まとめを参照

演習 10.1

観測データの対数周辺尤度\ln p(\mathbf{X})

\ln p(\mathbf{X})=\mathcal{L}(q)+\mathrm{KL}(q \| p) \tag{10.2}

のように二つの項に分解できることを確かめよ.ここで,\mathcal{L}(q), \mathrm{KL}(q \| p)(10.3), (10.4)

\mathcal{L}(q) = \int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \tag{10.3}
\mathrm{KL}(q \| p) =-\int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \tag{10.4}

で与えられる.


(10.3)(10.4)を足すと

\begin{aligned} \mathcal{L}(q)+\mathrm{KL}(q \| p) &=\int q(\mathbf{Z})\left[\ln \frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}-\ln \frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right] d \mathbf{Z} \\ &=\int q(\mathbf{Z})[\ln p(\mathbf{X}, \mathbf{Z})-\ln p(\mathbf{Z} \mid \mathbf{X})] d \mathbf{Z} \\ &=\int q(\mathbf{Z})[\ln p(\mathbf{X}, \mathbf{Z})-\ln p(\mathbf{X}, \mathbf{Z})+\ln p(\mathbf{X})] d\mathbf{Z} \\ &=\ln p(\mathbf{X})\int q(\mathbf{Z})d \mathbf{Z} \\ &=\ln p(\mathbf{X}) \end{aligned}

よって(10.2)式が示された。

演習 10.2

\mathbb{E}\left[z_{1}\right]=m_{1}および\mathbb{E}\left[z_{2}\right]=m_{2}を用いて連立方程式

\begin{aligned} m_{1}&=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(\mathbb{E}\left[z_{2}\right]-\mu_{2}\right) \quad (10.13) \\ m_{2}&=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(\mathbb{E}\left[z_{1}\right]-\mu_{1}\right) \quad (10.15) \end{aligned}

を解き,もともとの分布p(\mathbf{z})が非特異ならば,近似された因子分布の平均についての一意な解は\mathbb{E}\left[z_{1}\right]=\mu_{1}および\mathbb{E}\left[z_{2}\right]=\mu_{2}となることを示せ.


(10.13)式と(10.15)式に、\mathbb{E}\left[z_{1}\right]=m_{1}\mathbb{E}\left[z_{2}\right]=m_{2}を代入して、

\begin{aligned} m_{1}&=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(m_2-\mu_{2}\right)\\ m_{2}&=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(m_1-\mu_{1}\right) \end{aligned}

これを行列の形で表すと、

\begin{aligned} \left[\begin{array}{cc} 1 & \Lambda _{11}^{-1}\Lambda_{12} \\ \Lambda_{22}^{-1}\Lambda_{21} & 1 \end{array}\right] \left[\begin{array}{rr} m_1 - \mu_1 \\ m_2- \mu_2 \end{array}\right] =\left[\begin{array}{rr} 0 \\ 0 \end{array}\right] \end{aligned}

一番左の2 \times 2行列には逆行列が存在する(*)ので、左から逆行列をかけてm_1=\mu_1, m_2=\mu_2を得る。

(*) 一番左の行列に逆行列が存在しないと仮定すると、行列式が0、つまり

\begin{aligned} &1-\Lambda _{11}^{-1}\Lambda_{12} \Lambda_{22}^{-1}\Lambda_{21} =0\\ \Leftrightarrow & \Lambda _{11}\Lambda_{22}- \Lambda_{12}\Lambda_{21} =0\\ \Leftrightarrow & \det \mathbf \Lambda =0 \end{aligned}

となってしまい、元の分布p(\mathbf{z})が特異であることを意味する。(精度行列の逆行列が存在しない、すなわち共分散行列が定義できない。)

演習 10.3

q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right) \tag{10.5}

の形の分解された変分分布q(\mathbf{Z})を考えよう.ラグランジュ乗数法を用いて,カルバック-ライブラーダイバージェンス\textrm{KL}(p \| q)を因子の一つq_i(\mathbf{Z}_i)について他の因子を固定して最小化すると,解

q_{j}^{\star}\left(\mathbf{Z}_{j}\right)=\int p(\mathbf{Z}) \prod_{i \neq j} \mathrm{~d} \mathbf{Z}_{i}=p\left(\mathbf{Z}_{j}\right) \tag{10.17}

が得られることを確かめよ.


(10.16)式からKLダイバージェンスは

\begin{aligned} KL(p \parallel q) &= -\int p(\mathbf{Z})\left[\sum^M_{i=1}\ln q_i(\mathbf{Z}_i)\right]d\mathbf{Z}+const\\ &=-\int p(\mathbf{Z})\left[\ln q_j(\mathbf{Z}_j)+\sum^M_{i\neq j}\ln q_i(\mathbf{Z}_i)\right]d\mathbf{Z}+const\\ &=-\int p(\mathbf{Z})\ln q_j(\mathbf{Z}_j)d\mathbf{Z}+const\\ &=-\int\left[\int p(\mathbf{Z})\prod_{i\neq j}d\mathbf{Z}_i\right]\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+const\\ &=-\int p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+const \end{aligned}

と計算できる.ここでconstの項は同一の項にはなっていないことに留意.2行目から3行目への式変形ではq_jに依存しない積分をconstに押し込んだ.最後の式変形では\mathbf{Z}の積分を各\mathbf{Z}の添字(1\dots i\dots j \dots M)についてバラして添字j以外の積分の順序を入れ替え,p(\mathbf{Z})においてj以外の添字で積分周辺化したためp(\mathbf{Z}_j)のみが残っている.

q_j(\mathbf{Z}_j)が正規化されているという条件を利用してラグランジュ乗数\lambdaを導入して,ラグランジュ未定乗数法によりKLダイバージェンスの最小化は以下の式の最小化に書き換えることができて

L = -\int p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+\lambda\left(\int q_j(\mathbf{Z}_j)d\mathbf{Z}_j-1\right)

を最小化すれば良いことがわかる.ここで元のKLダイバージェンスの式にあった定数項は\mathbf{Z}_jに依存しない項なので最小化に影響はなく無視した.

これを積分汎関数の形に変形して変分法を用いて解けるようにしたい.
\mathbf{Z}_jに依存しない項を積分に含めるために\delta関数を用いてL
以下のように書き直すことができる

L=\int\left\{-p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)+\lambda q_j(\mathbf{Z}_j)-\lambda\delta(\mathbf{Z}_j)\right\}d\mathbf{Z}_j

被積分関数を

G(p,q;\delta)=-p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)+\lambda q_j(\mathbf{Z}_j)-\lambda\delta(\mathbf{Z}_j)

とおくとLを最小化するq_j^*はオイラー・ラグランジュ方程式から

\frac{\partial G}{\partial q}=0
-\frac{p(\mathbf{Z}_j)}{q_j(\mathbf{Z}_j)} + \lambda = 0

\mathbf{Z}_jについて積分して

\lambda=1

よって

q_j^*=p(\mathbf{Z}_j)=\int p(\mathbf{Z})\prod_{i\neq j}d\mathbf{Z}_i

が得られる.

変分法について補足

蛇足かもしれないけど変分法についてちょっと勉強したので補足.上巻の付録Dに変分法の説明が書いてあるけど被積分関数として関数一つとその一回導関数を含む場合についての説明だった.一般化した場合変分問題の解法であるオイラー・ラグランジュ方程式がどのような形になるか調べた.

高階導関数を含む(被積分関数がG(y,y',y'',...,y^{(m)}, x)と書ける)場合は

\frac{\partial G}{\partial y}-\frac{d}{dx}\frac{\partial G}{\partial y'}+\frac{d^2}{dx^2}\frac{\partial G}{\partial y''}+...+(-1)^{(m)}\frac{d^m}{dx^m}\frac{\partial G}{\partial y^{(m)}}=0

複数の関数を含む(被積分関数がG(y,y',z, z',x)と書ける)場合には

\frac{\partial G}{\partial y}-\frac{d}{dx}\frac{\partial G}{\partial y'}=0
\frac{\partial G}{\partial z}-\frac{d}{dx}\frac{\partial G}{\partial z'}=0

のように書けるらしい.今回の場合,最小化したい積分汎関数は同関数を含まず,複数の関数を含む形になっていたため単に注目する関数の偏微分を考えるだけでよかった(という理解であってますか...)

演習 10.4

ある固定された分布p(\mathbf{x})をガウス分布q(\mathbf{x}) = \mathcal{N}(\mathbf{x}\mid \boldsymbol{\mu}, \mathbf{\Sigma})を用いて近似したいとしよう.KLダイバージェンス\textrm{KL}(p \| q)をガウス分布q(\mathbf{x})に関して書き下して微分することにより,\textrm{KL}(p \| q)\boldsymbol{\mu}および\mathbf{\Sigma}について最小化すると,結果として\boldsymbol{\mu}p(\mathbf{x})の下での\mathbf{x}の期待値になり,\mathbf{\Sigma}はその共分散になることを示せ.


\begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} d \mathbf{x} \\ &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) d \mathbf{x}+\text { const } \\ &=-\int p(\mathbf{x})\left[-\frac{D}{2} \ln 2 \pi-\frac{1}{2} \ln |\boldsymbol{\Sigma}|-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\ &=\int p(\mathbf{x})\left[\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\int p(\mathbf{x})\left[\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\int p(\mathbf{x}) \frac{1}{2}\left[\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}-2 \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}\right] d \mathbf{x}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \int p(\mathbf{x}) \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1}\left(\mathbf{x} \mathbf{x}^{\mathrm{T}}\right)\right] d \mathbf{x}-\boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbb{E}[\mathbf{x}]+\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1} \mathbb{E}\left(\mathbf{x} \mathbf{x}^{\mathrm{T}}\right)\right]-\boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbb{E}[\mathbf{x}]+\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const } \end{aligned}

D : \mathbf{x}の次元.
\mathrm{KL}(p \| q)\boldsymbol{\mu} について微分:

\frac{\partial \mathrm{KL}}{\partial \boldsymbol{\mu}}=-\Sigma^{-1} \mathbb{E}[x]+\Sigma^{-1} \mu=0

よって

\boldsymbol{\mu}=\mathbb{E}[\mathbf{x}]. \boldsymbol{\mu}=\mathbb{E}[\mathbf{x}] のとき, KL divergenceは:

\mathrm{KL}(p \| q)=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1} \mathbb{E}\left(\mathbf{x} \mathbf{x}^{\mathrm{T}}\right)\right]-\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const }

この\mathrm{KL}(p \| q)\Sigma について微分すると:

\frac{\partial \mathrm{KL}}{\partial \Sigma}=\frac{1}{2} \Sigma^{-1}-\frac{1}{2} \Sigma^{-1} \mathbb{E}\left[\mathbf{x} \mathbf{x}^{\mathrm{T}}\right] \Sigma^{-1}+\frac{1}{2} \Sigma^{-1} \mu \mu^{\mathrm{T}} \Sigma^{-1}=0

'MatrixCookBook'内の\mathrm{Eq}(61)\mathrm{Eq}(124) ,を用いた. \Sigma, \mathbb{E}\left[\mathbf{x x}^{\mathrm{T}}\right] は対象行列:
\frac{\partial \mathbf{a}^{\mathrm{T}} \mathbf{X}^{-1} \mathbf{b}}{\partial \mathbf{X}}=-\mathbf{X}^{-\mathrm{T}} \mathbf{a b}^{\mathrm{T}} \mathbf{X}^{-\mathrm{T}} \quad and \quad \frac{\partial \operatorname{Tr}\left(\mathbf{A} \mathbf{X}^{-1} \mathbf{B}\right)}{\partial \mathbf{X}}=-\mathbf{X}^{-\mathrm{T}} \mathbf{A}^{\mathrm{T}} \mathbf{B}^{\mathrm{T}} \mathbf{X}^{-\mathrm{T}}
整理すると:

\Sigma=\mathbb{E}\left[\mathbf{x x}^{\mathrm{T}}\right]-\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}=\mathbb{E}\left[\mathbf{x} \mathbf{x}^{\mathrm{T}}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}[\mathbf{x}]^{\mathrm{T}}=\operatorname{cov}[\mathbf{x}]

演習 10.5

すべての隠れ確率変数の集合\mathbf{Z}が,潜在変数\mathbf{z}とモデルパラメータ\boldsymbol{\theta}に分けられるようなモデルを考える.この変分分布を潜在変数とパラメータにq(\mathbf{z}, \boldsymbol{\theta}) = q_{\mathbf{z}}(\mathbf{z}) q_{\theta}(\boldsymbol{\theta})のように分解し,分布q_{\theta}(\boldsymbol{\theta})q_{\theta}(\boldsymbol{\theta}) = \delta(\boldsymbol{\theta} - \boldsymbol{\theta}_0)の形の点推定で近似することを考える.ここで,\boldsymbol{\theta}_0は自由パラメータのベクトルである.このとき,この分解された分布を変分ベイズ法により最適化することは, Eステップでq_{\mathbf{z}}(\mathbf{z})を最適化し, Mステップで\boldsymbol{\theta}の完全データの対数事後分布の期待値を\boldsymbol{\theta}_0について最大化するEMアルゴリズムと等価になることを示せ.


変分ベイズの点推定がEMアルゴリズムに相当することを確かめる問題。
10.1節で述べられている通り、EMアルゴリズムと変分推論の違いの一つは、Zにθを含めないか、含めるかである。今回はZとθを分離して考えているためEMアルゴリズムの枠組みで考えられる。変分ベイズ法では、Pをよく表すようなqをKLダイバージェンス基準で求める。つまり(10.2)において、KLダイバージェンスの項を最小化することに相当する(Eステップ)
(つまり変分ベイズはEEアルゴリズムのように捉えることもできる)

実際に計算をする。θを固定して

\begin{aligned} \mathrm{KL}(q \| p) &=-\iint q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right\} d \mathbf{Z} \\ &=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta})}\right\} d \mathbf{z} d \boldsymbol{\theta} \\ &=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}+\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta} \\ &=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}+\text { const } \\ &=-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta})\left\{\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}\right\} d \boldsymbol{\theta}+\text { const } \\ &=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z}, \boldsymbol{\theta}_{0} \mid \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \\ &=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right) p\left(\boldsymbol{\theta}_{0} \mid \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \\ &=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \end{aligned}

よって、\mathrm{KL}(q \| p)を最小にするq_{\mathbf{z}}(\mathbf{z})p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right)が解となる。

続いて最適なθを求める。これは下限\mathcal{L}(q)を最大にするようなθを求めることに相当する。

\begin{aligned} L(q) &=\iint q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} d \mathbf{Z} \\ &=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})}{q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta})}\right\} d \mathbf{z} d \boldsymbol{\theta} \\ &=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta} \\ &=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})\} d \mathbf{z} d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \\ &=\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \mathbb{E}_{q_{\mathbf{z}}}[\ln p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})] d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \\ &=\mathbb{E}_{q_{\mathbf{z}}(\mathbf{z})}\left[\ln p\left(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta}_{0}\right)\right]-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \end{aligned}

\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}は−∞になるので無視して良いので、第一項の最大化を考えれば良い。
これは、対数事後分布の期待値を\boldsymbol{\theta}_{0}について最大化すれば良い。

演習 10.6

\alphaダイバージェンスは

\mathrm{D}_{\alpha}(p \| q)=\frac{4}{1-\alpha^{2}}\left(1-\int p(x)^{(1+\alpha) / 2} q(x)^{(1-\alpha) / 2} \mathrm{~d} x\right) \tag{10.19}

で定義される.カルバック-ライブラーダイバージェンス\textrm{KL}(p \| q)はこのとき\alpha \to 1の場合に対応することを示せ.これにはp^{\epsilon} = \exp (\epsilon \ln p)=1+\epsilon \ln p+O\left(\epsilon^{2}\right)と書き,\epsilon \to 0とすればよい.同様にして,\textrm{KL}(q \| p)\alpha \to -1の場合に対応することを示せ.


\alpha\rightarrow1の時は、p^{\epsilon}=1+\epsilon \ln p+O\left(\epsilon^{2}\right)を利用すべく、以下のように式変形する。

\begin{aligned} D_{\alpha}(p \| q) &=\frac{4}{1-\alpha^{2}}\left(1-\int p^{(1+\alpha) / 2} q^{(1-\alpha) / 2} d x\right) \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int \frac{p}{p^{(1-\alpha) / 2}}\left[1+\frac{1-\alpha}{2} \ln q+O\left(\frac{1-\alpha}{2}\right)^{2}\right] d x\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int p \cdot \frac{1+\frac{1-\alpha}{2} \ln q+O\left(\frac{1-\alpha}{2}\right)^{2}}{1+\frac{1-\alpha}{2} \ln p+O\left(\frac{1-\alpha}{2}\right)^{2}} d x\right\} \\ &\approx \frac{4}{1-\alpha^{2}}\left\{1-\int p \cdot \frac{1+\frac{1-\alpha}{2} \ln q}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{-\int p \cdot\left[\frac{1+\frac{1-\alpha}{2} \ln q}{1+\frac{1-\alpha}{2} \ln p}-1\right] d x\right\} \\ &=\frac{4}{(1+\alpha)(1-\alpha)}\left\{-\int p \cdot \frac{\frac{1-\alpha}{2} \ln q-\frac{1-\alpha}{2} \ln p}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &=\frac{2}{1+\alpha}\left\{-\int p \cdot \frac{\ln q-\ln p}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &D_{\alpha\rightarrow1}(p \| q)= -\int p \cdot(\ln q-\ln p) d x=\int p \cdot \ln \frac{p}{q}dx = \textrm{KL}(p \| q) \end{aligned}

同様に\alpha\rightarrow-1の時は、以下のように式変形する。

\begin{aligned} D_{\alpha}(p \| q) &=\frac{4}{1-\alpha^{2}}\left(1-\int p^{(1+\alpha) / 2} q^{(1-\alpha) / 2} dx\right) \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int \left[1+\frac{1+\alpha}{2} \ln p+O\left(\frac{1+\alpha}{2}\right)^{2}\right]\frac{q}{q^{(1+\alpha)/ 2}}dx\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int q \cdot \frac{1+\frac{1+\alpha}{2} \ln p+O\left(\frac{1+\alpha}{2}\right)^{2}}{1+\frac{1+\alpha}{2} \ln q+O\left(\frac{1+\alpha}{2}\right)^{2}} dx\right\} \\ & \approx \frac{4}{1-\alpha^{2}}\left\{1-\int q \cdot \frac{1+\frac{1+\alpha}{2} \ln p}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{-\int q \cdot\left[\frac{1+\frac{1+\alpha}{2} \ln p}{1+\frac{1+\alpha}{2} \ln q}-1\right] d x\right\} \\ &=\frac{4}{(1+\alpha)(1-\alpha)}\left\{-\int q \cdot \frac{\frac{1+\alpha}{2} \ln p-\frac{1+\alpha}{2} \ln q}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &=\frac{2}{1-\alpha}\left\{-\int q \cdot \frac{\ln p-\ln q}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &D_{\alpha\rightarrow-1}(p \| q)= -\int q \cdot(\ln p-\ln q)dx=\int q \cdot \ln \frac{q}{p}dx = \textrm{KL}(q \| p) \end{aligned}

演習 10.7

一変数ガウス分布の平均と精度を,分解した変分近似を用いて求める10.1.3節の問題を考える.このとき,因子q_{\mu}(\mu)はガウス分布\mathcal{N}\left(\mu \mid \mu_{N}, \lambda_{N}^{-1}\right)となり,この平均と精度はそれぞれ

\mu_{N} =\frac{\lambda_{0} \mu_{0}+N \bar{x}}{\lambda_{0}+N} \tag{10.26}

\lambda_{N} =\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \tag{10.27}

で与えられることを示せ.同様にして因子q_{\tau}(\tau)はガンマ分布\textrm{Gam}(\gamma \mid a_N, b_N)となり,そのパラメータは
a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}

b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}

で与えられることを示せ.


(10.25)式から

\begin{aligned} \ln q_{\mu}^{\star}(\mu) &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0}\left(\mu-\mu_{0}\right)^{2}+\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0} \mu^{2}-2 \lambda_{0} \mu_{0} \mu+\lambda_{0} \mu_{0}^{2}+N \mu^{2}-2\left(\sum_{n=1}^{N} x_{n}\right) \mu+\sum_{n=1}^{N} x_{n}^{2}\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\left(\lambda_{0}+N\right) \mu^{2}-2\left(\lambda_{0} \mu_{0}+\sum_{n=1}^{N} x_{n}\right) \mu+\left(\lambda_{0} \mu_{0}^{2}+\sum_{n=1}^{N} x_{n}^{2}\right)\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]\left(\lambda_{0}+N\right)}{2}\left\{\mu^{2}-2 \frac{\lambda_{0} \mu_{0}+\sum_{n=1}^{N} x_{n}}{\lambda_{0}+N} \mu+\frac{\lambda_{0} \mu_{0}^{2}+\sum_{n=1}^{N} x_{n}^{2}}{\lambda_{0}+N}\right\}+\text { const } \end{aligned}

演習 10.8

パラメータが

a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}

b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}

で与えられる一変数ガウス分布の精度の変分事後分布を考える.ガンマ分布の平均と分散についての標準的な結果
\mathbb{E}[\tau] =\frac{a}{b} \tag{B.27}

\operatorname{var}[\tau] =\frac{a}{b^{2}} \tag{B.28}

を用いて,N\to \inftyのとき,この変分事後分布の期待値はデータの分散の最尤推定値の逆数となり,事後分布の分散は0に近づくことを示せ.


精度\tauはガンマ分布に従う。すなわち、

\begin{aligned} p(\tau) = \frac{1}{\Gamma(a_N)}b_N^{a_N}\tau^{a_N-1}e^{-b\tau} \end{aligned}

を満たす。今、ガンマ分布の標準的な結果(B.27)(B.28)に代入すると、

\begin{aligned} \mathbb{E}[\tau] &= \frac{a_N}{b_N} \\ &= \frac{a_{0}+\frac{N+1}{2}}{b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right]} \\ &= \frac{2 a_{0}+N+1}{2 b_{0}+\mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} + \lambda_{0}\left(\mu-\mu_{0}\right)\right]} \\ &\xrightarrow[N\to\infty]{} \frac{N}{\mathbb{E}_{\mu}\left[ \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} \right]} \end{aligned}

これはN\to \inftyの極限でデータ分散の最尤推定量\displaystyle \frac{\sum_{n=1}^{N}(x_n-\mu)^2}{N}の逆数になっている事がわかる。

分散は

\begin{aligned} \operatorname{var}[\tau] &= \frac{a_N}{{b_N}^2} \\ &=\frac{2\mathbb{E}[\tau]}{2b_{0}+\mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} + \lambda_{0}\left(\mu-\mu_{0}\right)\right]} \\ &\xrightarrow[N\to\infty]{} 0 \end{aligned}

となる。

演習 10.9

ガンマ分布の平均が\mathbb{E}[\tau] = a_N/b_Nになるという標準的な結果,および

\mu_{N} =\frac{\lambda_{0} \mu_{0}+N \bar{x}}{\lambda_{0}+N} \tag{10.26}

\lambda_{N} =\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \tag{10.27}

a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}

b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}

を用いて,一変数ガウス分布の分解された変分近似の持つ精度の期待値の逆数についての結果
\frac{1}{\mathbb{E}[\tau]} =\overline{x^{2}}-\bar{x}^{2} =\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\bar{x}\right)^{2} \tag{10.33}

を導け.


※問題文には書かれていないが、PRML下巻P.186の設定から\mu_{0}=a_{0}=b_{0}=\lambda_{0}=0であるとする。

まず\displaystyle \frac{1}{\mathbb{E}[\tau]}を計算する。

\begin{aligned} \dfrac{1}{{\mathbb E}[\tau]} &= \left(\frac{a_N}{b_N}\right)^{-1} \\ &= \frac{b_N}{a_N}\\ &=\frac{b_0+\dfrac{1}{2}{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2+\lambda_0(\mu-\mu_0)^2\right]}{a_0+\dfrac{N+1}{2}} \\ &=\frac{{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right]}{N+1} \\ &=\frac{N}{N+1}\cdot\frac{1}{N}{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^N(x_n-\mu)^2\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^N(x_n^2-2\mu x_n+\mu^2)\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^Nx_n^2-2\mu\frac{1}{N}\sum_{n=1}^Nx_n+\frac{1}{N}\sum_{n=1}^N\mu^2\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\overline{x^2}-2\overline{x}\mu+\mu^2\right] \\ &=\frac{N}{N+1}\left(\overline{x^2}-2\overline{x}{\mathbb E}_\mu[\mu]+{\mathbb E}_\mu[\mu^2]\right) \end{aligned}

これと

\begin{aligned} {\mathbb E}_\mu[\mu]&= \mu_N \\ &=\frac{\lambda_0\mu_0+N\overline{x}}{\lambda_0+N} \\ &=\frac{N\overline{x}}{N}\ (\because \lambda_0 = \mu_0 = 0 )\\ &=\overline{x} \end{aligned}
\begin{aligned} \mathbb{E}_{\mu}\left[\mu^{2}\right] &=\operatorname{var}[\mu]+\mathbb{E}_{\mu}[\mu]^{2} \\ &=\lambda_{N}^{-1}+\overline{x}^{2} \\ &=\left(\left(\lambda_{0}+N\right) \mathbb{E}[\tau]\right)^{-1}+\overline{x}^{2} \\ &=(N \mathbb{E}[\tau])^{-1}+\overline{x}^{2} \\ &=\frac{1}{N \mathbb{E}[\tau]}+\overline{x}^{2} \end{aligned}

よって

\begin{aligned} \dfrac{1}{{\mathbb E}[\tau]} &= \frac{N}{N+1}\left(\overline{x^2}-2\overline{x}\cdot\overline{x}+\frac{1}{N{\mathbb E}[\tau]}+\overline{x}^2\right) \\ &=\frac{N}{N+1}\left(\overline{x^2}-\overline{x}^2+\frac{1}{N{\mathbb E}[\tau]}\right) \\ \therefore \dfrac{1}{{\mathbb E}[\tau]} &= \overline{x^2}-\overline{x}^2 \end{aligned}

一方で

\begin{aligned} \frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\overline{x}\right)^{2} &=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}^{2}-2 \overline{x} x_{n}+\overline{x}^{2}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} x_{n}^{2}-2 \overline{x} \frac{1}{N} \sum_{n=1}^{N} x_{n}+\frac{1}{N} \sum_{n=1}^{N} \overline{x}^{2} \\ &=\overline{x^{2}}-2 \overline{x} \cdot \overline{x}+\overline{x}^{2} \\ &=\overline{x^{2}}-\overline{x}^{2} \end{aligned}

よって

\frac{1}{\mathbb{E}[\tau]} =\overline{x^{2}}-\overline{x}^{2} =\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\overline{x}\right)^{2} \tag{10.33}

を得る。

演習 10.10

モデルの事後分布を変分推論を用いて近似する際の分解

\ln p(\mathbf{X})=\mathcal{L}-\sum_{m} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, m \mid \mathbf{X})}{q(\mathbf{Z} \mid m) q(m)}\right\} \tag{10.34}

を導け.


\begin{aligned} \mathcal{L} &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{X}, \mathbf{Z}, m)}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})p(\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} + \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{p(\mathbf{X})\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} + \ln p(\mathbf{X}) \end{aligned}

上式を整理することで、式 (10.34) を得る。

演習 10.11

分布q(m)の正規化条件をラグランジュ乗数法を用いて扱うことにより,下限

\mathcal{L}=\sum_{m} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\} \tag{10.35}

の最大値は
q(m) \propto p(m) \exp \left\{\mathcal{L}_{m}\right\} \tag{10.36}

によって得られることを示せ.


問題には「ラグランジュ乗数法を用いて」とあるが、ラグランジュ乗数法を用いない方が簡単に解ける (実際公式の解答も使っていない)。
まず、変分下限\mathcal{L}を式変形する。

\begin{aligned} \mathcal{L} &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{X}, \mathbf{Z}, m)}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})p(\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\left\{\ln p(\mathbf{Z}, m|\mathbf{X}) + \ln p(\mathbf{X}) - \ln q(\mathbf{Z}|m) - \ln q(m)\right\} \\ &= \sum_m q(m) \left(\ln p(m) - \ln q(m) + \sum_{\mathbf{Z}} q(\mathbf{Z}|m)\left\{\ln p(\mathbf{Z}, m|\mathbf{X}) - \ln q(\mathbf{Z}|m)\right\} \right) \\ &= \sum_m q(m)\left\{\ln\left(p(m)\exp(\mathcal{L}_m)\right) - \ln q(m)\right\} \\ &= \sum_m q(m)\ln\left\{\frac{p(m)\exp(\mathcal{L}_m)}{q(m)}\right\} \end{aligned}

これはp(m)\exp(\mathcal{L}_m)q(m)とのKLダイバージェンスに-1をかけたものに等しいので、

q(m) \propto p(m)\exp(\mathcal{L}_m)

のとき\mathcal{L}が最大となる。
(=ではなく\proptoなのは、p(m)\exp(\mathcal{L}_m)が正規化されているとは限らないため)

演習 10.12

同時分布

p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu}, \mathbf{\Lambda})=p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda}) p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\mu} \mid \mathbf{\Lambda}) p(\mathbf{\Lambda}) \tag{10.41}

から始めて一般的な結果
\ln q_{j}^{\star}\left(\mathbf{Z}_{j}\right)= \mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})]+\mathrm{const} \tag{10.9}

を適用することで,ベイズ混合ガウス分布の潜在変数の最適な変分事後分布q^{\star}(\mathbf{Z})
q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}} \tag{10.48}

で与えられることを,本文の段階を確かめることで示せ.


※教科書P.190の(10.43)–(10.49)の導出を確認する問題。

\begin{aligned} \ln q^{\star}(\mathbf{Z}) &=\mathbb{E}_{\boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu} \mathbf{\Lambda}}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\boldsymbol{\pi}}, \mathbf{\Lambda})]+\text { const. } \\ &=\mathbb{E}_{\boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu}, \mathbf{\Lambda}}[\ln [p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}}) p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda}) p(\boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\mu} \mid \mathbf{\Lambda}) p(\mathbf{\Lambda})]]+\text { const } \end{aligned}

Zに依存しない項はconst.となるので、

\ln q^{\star}(\mathbf{Z})=\mathbb{E}_{\boldsymbol{\pi}}[\ln p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}})]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\text { const. }

(10.37)(10.38)を代入して

\begin{aligned} \ln q^{\star}(\mathbf{Z})&=\mathbb{E}_{\boldsymbol{\pi}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{nk} \ln \pi_{k} \right]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right] + \textrm{const.} \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{n k}\left(\mathbb{E}_{\boldsymbol{\pi}}\left[\ln \pi_{k} \right]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right]\right)\right\} + \textrm{const.} \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{nk} \left(\mathbb{E}_{\boldsymbol{\pi}}\left[\ln \pi_{k} \right]+\frac{1}{2} \mathbb{E}[\ln \mathbf{\Lambda}]-\frac{D}{2} \ln (2 \pi)-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{n}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{n}\right)\right]\right)\right\} + \textrm{const.} \\ &\equiv\sum_{n=1}^{N} \sum_{k=1}^{K} z_{nk}\ln \rho_{nk} + \textrm{const.} \end{aligned}

最後に本文中で定義した

\begin{aligned} \ln \rho_{n k} &= \mathbb{E}\left[\ln \pi_{k}\right]+\frac{1}{2} \mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\frac{D}{2} \ln (2 \pi) \\ &-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \end{aligned} \tag{10.46}

を用いた。

これを用いて両辺の指数を取れば

q^{\star}(\mathbf{Z}) \propto \prod_{n=1}^{N} \prod_{k=1}^{K} \rho_{n k}^{z_{n k}} \tag{10.47}

を得る。また、この分布は正規化されている必要があることと,各nの値についてz_{nk}は二値ですべてのkの値にわたる和が1であることに注意すると,(10.48), (10.49)を得る。

q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}, \quad r_{n k}=\frac{\rho_{n k}}{\sum_{j=1}^{K} \rho_{n j}}

演習 10.13

\begin{aligned} \ln q^{\star} &(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=\ln p(\boldsymbol{\pi})+\sum_{n=1}^{N} \ln p\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)+\mathbb{E}_{\mathbf{Z}}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})] \\ &+\sum_{n=1}^{N} \sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)+\text { const. } \end{aligned} \tag{10.54}

から始めて,ベイズ混合ガウス分布における\boldsymbol{\mu}_k\mathbf{\Lambda}_kの最適な変分事後分布についての結果

q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}

を導き,この分布のパラメータが

\beta_{k} =\beta_{0}+N_{k} \tag{10.60}
\mathbf{m}_{k} =\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \tag{10.61}
\mathbf{W}_{k}^{-1} =\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{\beta_{0} N_{k}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \tag{10.62}
\nu_{k}=\nu_{0}+N_{k} \tag{10.63}

で与えられることを確かめよ.


※多変数で平均と精度がともに未知な場合、上巻P.100の(2.157)式にあるガウス–ウィシャート分布の形の共役事前分布を取ることを利用する。

\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)=\left(\frac{1}{2 \pi \beta_{0}}\right)^{\frac{D}{2}}\left(\left|\mathbf{\Lambda}_{k}\right|\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_0\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_0\right)\right\}
\mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)=B\left(\mathbf{W}_{0}, \nu_{0}\right)\left|\mathbf{\Lambda}_{k}\right|^{\left(\nu_{0}-D-1\right) / 2} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right)\right) \tag{B .78}

を利用して(10.54)式のうち\boldsymbol{\mu}_k\mathbf{\Lambda}_kに依存する項を考える。ただし

q^{\star}(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q^{\star}(\boldsymbol{\pi}) \prod_{k=1}^{K} q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \tag{10.55}

で示されているように、\prod_{k=1}^{K}の部分は外に出ていることに留意する。

\begin{aligned}\ln q^{\star}(\boldsymbol{\mu}_k, \mathbf{\Lambda}_k) &= \ln p\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\ &= \ln \left[\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right] +\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\ &= \ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)+ \ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right) +\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\ &=\frac{1}{2}\ln |\mathbf{\Lambda}_k| - \frac{\beta_0}{2}(\boldsymbol{\mu}_k - \mathbf{m}_0)^{\mathrm T}\mathbf{\Lambda}_k(\boldsymbol{\mu}_k - \mathbf{m}_0) +\frac{\nu_{0}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\ &+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right)+\textrm{const.} \end{aligned}

これをさらに\ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right ) = \ln q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) + \ln q^{\star}\left(\mathbf{\Lambda}_{k}\right)の形に分解する。\boldsymbol{\mu}_{k}に依存する項の部分を取り出す。

\begin{aligned}\ln q^{*}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) &= -\frac{1}{2} \boldsymbol{\mu}_{k}^{\mathrm T}\left[\beta_{0}+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\right] \mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} +\boldsymbol{\mu}_{k}^{\mathrm T} \mathbf{\Lambda}_{k}\left[\beta_{0} \mathbf{m}_0+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right] \mathbf{x}_{n}\right]+\textrm{const.} \\ &= -\frac{1}{2} \boldsymbol{\mu}_{k}^{\mathrm T}(\beta_{0}+N_k) \mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} +\boldsymbol{\mu}_{k}^{\mathrm T} \mathbf{\Lambda}_{k}\left[\beta_{0} \mathbf{m}_0+ N_k \overline{\mathbf{x}}_k \right]+\textrm{const.}\quad (\because (10.50)-(10.52))\end{aligned}

この形は\boldsymbol{\mu}_{k}についての二次形式となっており、両辺の指数を取れば多変数ガウス分布の形で

q^{\star}\left(\boldsymbol{\mu}_{k}\mid \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)

と書ける。ただし

\begin{aligned} \beta_{k} &=\beta_{0}+N_{k} \\ \mathbf{m}_{k} &=\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \end{aligned}

である。

続いてq^{\star}(\mathbf{\Lambda}_k)について、これは\ln q^{\star}(\mathbf{\Lambda}_k) = \ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right ) -\ln q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right)から求めると

\begin{aligned} \ln q^{*}\left(\mathbf{\Lambda}_{k}\right) &=\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) +\frac{\nu_{0}-D-1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\ &+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right) - \ln q^{\star}\left(\boldsymbol{\mu}_{k}\mid \mathbf{\Lambda}_{k}\right) +\textrm{const.}\\ &= \frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) +\frac{\nu_{0}-D-1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\ &+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right) \\ &-\frac{1}{2} \ln \left|\beta_{k} \mathbf{\Lambda}_{k}\right|-\frac{\beta_{k}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right) +\textrm{const.}\\ &=\frac{\nu_{0}-D-1}{2}\ln|\mathbf{\Lambda}_k|+\frac{1}{2}\sum_{n=1}^{N}\mathbb{E}[z_{nk}]\ln |\mathbf{\Lambda}_k| \\ &-\frac{1}{2} \operatorname{Tr}\left[\left\{\beta_{0}\left(\boldsymbol{\mu}_k-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}[z_{nk}]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_k\right)^{\mathrm T} \right.\right. \\ &\left.\left.-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\mathbf{W}_{0}^{-1}\right\} \mathbf{\Lambda}_{k}\right]+\textrm{const.} \end{aligned}

これがウィシャート分布の対数形

\ln \mathcal{W}=\ln B(\mathbf{W}_k, \nu_{k})+\frac{\nu_{k}-D-1}{2}\ln\left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{k}^{-1} \mathbf{\Lambda}_{k}\right)

となれば良い(B(\mathbf{W}_{k},\nu_{k})は正規化の定数項)。係数を比較して、

\nu_{k}=\nu_{0}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]=\nu_{0}+N_{k}
\mathbf{W}_{k}^{-1}=\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T}

となる。

最後の\mathbf{W}_k^{-1}(10.62)の形になることをがんばって計算で示す。

\begin{aligned}\mathbf{W}_{k}^{-1}&=\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \\ &=\mathbf{W}_{0}^{-1}+\beta_{0} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}-2 \beta_{0} \mathbf{m}_{0} \boldsymbol{\mu}_{k}^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}+2 \beta_{k} \mathbf{m}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} -\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} +\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \boldsymbol{\mu}_{k}^{\mathrm T}+\sum_{n=1}^{N} r_{n k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} \\ &=\mathbf{W}_{0}^{-1}+\underbrace{\left( \sum_{n=1}^{N}r_{nk}+\beta_{0}-\beta_{k} \right)}_{0}\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} -2\underbrace{\left(\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n}+\beta_{0} \mathbf{m}_{0}-\beta_{k} \mathbf{m}_{k}\right)}_{0} \boldsymbol{\mu}_{k}^{\mathrm T} + \sum_{n=1}^{N} r_{nk} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \\ &=\mathbf{W}_{0}^{-1}+ \underbrace{\sum_{n=1}^{N} r_{nk} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}}_{(A)} + \underbrace{\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}}_{(B)} \quad (\because \beta_{k} \mathbf{m}_{k}=\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}) \\ &=\mathbf{W}_{0}^{-1} + \underbrace{N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}}_{(A)} + \underbrace{\frac{\beta_{0} N_{k}}{\beta_{k}} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{\beta_{0} N_{k}}{\beta_{k}}\left(2 \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T}\right)}_{(B)} \\ &=\mathbf{W}_{0}^{-1} + N_{k} \mathbf{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{k}}\left( \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T} -2\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm T} + \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T} \right) \\ &=\mathbf{W}_{0}^{-1} + N_{k} \mathbf{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{0} + N_{k}}\left( \overline{\mathbf{x}}_{k} - \mathbf{m}_{0} \right)\left( \overline{\mathbf{x}}_{k} - \mathbf{m}_{0} \right)^{\mathrm T} \end{aligned}

以上で(10.62)が示された。

途中の式変形(A)について

\begin{aligned} \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}&=\sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm T}-\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \mathbf{x}_{n} \overline{\mathbf{x}}_{k}^{\mathrm T}\right]\\ &=\sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm T}+\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right) \overline{\mathbf{x}}_{k}^{\mathrm T}\right]\\ &=N_{k} \mathbf{S}_{k}+\sum_{n=1}^{N} r_{n k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right) \overline{\mathbf{x}}_{k}^{\mathrm T}\right] \\ &=N_{k} \mathbf{S}_{k}+\sum_{n=1}^{N} r_{n k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 \sum_{n=1}^{N} r_{nk} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}\\ &=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}\\ &=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T} \end{aligned}

途中の式変形(B)について

\begin{aligned} \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} &=\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm T} \\ &=\left(1-\frac{\beta_{0}}{\beta_{k}}\right) \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{2}{\beta_{k}} \beta_{0} N_{k} \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T} \\ &=\frac{\beta_{0} N_{k}}{\beta_{k}} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{\beta_{0} N_{k}}{\beta_{k}}\left(2 \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T}\right) \end{aligned}

となることを用いた。

演習 10.14

q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}

の分布を使って,

\begin{aligned}& \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ =&\ D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\end{aligned}\tag{10.64}

の結果を確かめよ.


期待値の定義を使って計算していく。

\begin{aligned} & \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ =& \iint\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) d \boldsymbol{\mu}_{k} d \mathbf{\Lambda}_{k} \\ =&\int\left\{\int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) d \boldsymbol{\mu}_{k}\right\} q^{\star}\left(\mathbf{\Lambda}_{k}\right) d \mathbf{\Lambda}_{k} \\ =&\int\underbrace{\left\{\int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) d \boldsymbol{\mu}_{k}\right\}}_{(A)} q^{\star}\left(\mathbf{\Lambda}_{k}\right) d \mathbf{\Lambda}_{k} \end{aligned}

(A)について、

\begin{aligned} & \int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \Lambda_{A}\right)^{-1}\right) d \boldsymbol{\mu}_{k} \\ =&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right]\quad \left(\boldsymbol{\mu}_{k} \sim \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right) \\ =&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T}\right]\right] \\ =&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \boldsymbol{\mu}_{k}+\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right)\right]\right] \\ =&\operatorname{Tr}\left[\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}\right]-2 \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \mathbf{x}_{n}^{\mathrm T} \boldsymbol{\mu}_{k}\right]+\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right]\right] \\ =&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k}\right]+\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right]\right\}\right] \\ =&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \mathbf{m}_{k}+\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}+\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right\}\right] \\ =&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right]+\operatorname{Tr}\left[\beta_{k}^{-1} \mathbf{I}\right] \\ =&\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \end{aligned}

となる。ここで、\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k}\right] = \mathbf{m}_{k}\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right] = \mathbf{m}_k \mathbf{m}_k^{\mathrm T}+\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}、さらにトレース演算子と期待値演算子はともに線形演算子で交換可能であることを用いた。D\mathbf{x}_nの次元数である。

これと演習問題10.13で得られたq^{\star}(\mathbf{\Lambda}_k) = \mathcal{W}(\mathbf{\Lambda}_k \mid \mathbf{W}_k, \nu_k)を用いると

\begin{aligned} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] &= \int \left( \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \right)q^{\star}(\mathbf{\Lambda}_k)d\mathbf{\Lambda}_k \\ &=\mathbb{E}_{\mathbf{\Lambda}_k}\left[ \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \right] \quad \left( \mathbf{\Lambda}_{k} \sim \mathcal{W}(\mathbf{\Lambda}_k \mid \mathbf{W}_k, \nu_k) \right)\\ &=\mathbb{E}_{\mathbf{\Lambda}_k}[D \beta_{k}^{-1}]+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T} \Lambda_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\right] \\ &=D \beta_{k}^{-1}+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right]\right] \\ &=D \beta_{k}^{-1}+\operatorname{Tr}\left[\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\mathbf{\Lambda}_{k}\right] \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right] \\ &=D \beta_{k}^{-1}+\operatorname{Tr}\left[\nu_{k} \mathbf{W}_{k} \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right] \\ &=D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right) \end{aligned}

となり、(10.64)式が得られた。

「これは容易に計算できて」とはなんだったのか……。

演習 10.15

\mathbb{E}\left[\mu_{k}\right]=\frac{\alpha_{k}}{\widehat{\alpha}}=\frac{\alpha_k}{\sum_{k=1}^{K}\alpha_k}\tag{B.17}

の結果を用いて,変分混合ガウス分布の混合係数の期待値は

\mathbb{E}\left[\pi_{k}\right]=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+N}\tag{10.69}

で与えられることを示せ.


単純に\mu_k \to \pi_kとし、(10.58)を用いて式を変形すれば求まる。

\begin{aligned} \mathbb{E}\left[\pi_{k}\right] &=\frac{\alpha_{k}}{\sum_{k=1}^{K} \alpha_{k}}\quad \because(\textrm{B} .17) \\ &=\frac{\alpha_{0}+N_{k}}{\sum_{k=1}^{K}\left(\alpha_{0}+N_{k}\right)}\quad \because(10.58) \\ &=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+\sum_{k=1}^{K} N_{k}}=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+N} \end{aligned}

以上で(10.69)式が求められた。

演習 10.16

\begin{aligned} \mathcal{L} &=\sum_{\mathbf{Z}} \iiint q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})}{q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})}\right\} \mathrm{d} \pi \mathrm{d} \boldsymbol{\mu} \mathrm{d} \mathbf{\Lambda} \\ &=\mathbb{E}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})]-\mathbb{E}[\ln q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})] \\ &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}

で与えられる変分ガウス混合モデルの下界の,最初の二項についての結果

\begin{aligned} \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]&= \frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{\ln \widetilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)\right.\\ &\left.-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \end{aligned} \tag{10.71}
\begin{aligned} \mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]= \sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \tilde{\pi}_{k} \end{aligned} \tag{10.72}

を確かめよ.


容易に計算できるらしいのでやってみる。(10.71)について(10.38)の観測データベクトルの条件付き分布の式

p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)^{z_{n k}} \tag{10.38}

を用いると

\begin{aligned}\mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]&=\mathbb{E}\left[z_{nk} \sum_{n=1}^{N} \sum_{k=1}^{K} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right] \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}\left[z_{n k}\left\{-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right\}\right] \end{aligned}

今は負担率\mathbb{E}[z_{nk}]= r_{nk}を固定したときのパラメータの変分事後分布を求めているので、\mathbb{E}[z_{nk}]は分離&固定して考える(ってことで合ってるのか?)。

\begin{aligned} &=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}\left[z_{n k}\right] \mathbb{E}\left[-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ &=\frac{1}{2} \sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \mathbb{E}[-D \ln (2 \pi)]+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ &=\frac{1}{2} \sum_{k=1}^{N} \sum_{k=1}^{K} r_{n k}\left[-D \ln (2 \pi)+\ln \tilde{\Lambda}_{k}-\left(D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right)\right] \quad (\because (10.64))\\ &=\frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{n=1}^{N} r_{n k}\left(-D \ln (2 \pi)+\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}\right)-\sum_{n=1}^{N} r_{n k} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\} \\ &= \frac{1}{2} \sum_{k=1}^{K} \left\{ N_{k}\left(-D \ln(2 \pi)+\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}\right)-\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\} \\ &= \frac{1}{2} \sum_{k=1}^{K} N_{k} \left\{ \ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}- \nu_{k}\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right) -\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right) -D \ln(2 \pi) \right\} \quad (\because (*)) \end{aligned}

以上で(10.71)式が示された。


(*)の式変形の\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)について

\begin{aligned} \sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right) &=\nu_{k} \sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right] \\ &=\nu_{k} \sum_{n=1}^{N} r_{n k}\left[\operatorname{Tr}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \\ &=\nu_{k} \operatorname{Tr}\left[\sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \\ &=\nu_{k} N_{k} \operatorname{Tr}\left[\mathbf{S}_{k} \mathbf{W}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \quad (\because (**))\\ &=\nu_{k} N_{k}\left\{\operatorname{Tr}\left[\mathbf{S}_{k} \mathbf{W}_{k}\right]+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \end{aligned}

(**)の式変形について

\begin{aligned} \sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} &= \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \sum_{n=1}^{N} r_{n k} \mathbf{m}_{k}^{\mathrm T} \mathbf{x}_{n}+\sum_{n=1}^{N} r_{n k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \\ &=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 N_{k} \mathbf{m}_{k}^{\mathrm T} \overline{\mathbf{x}}_{k}+N_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \quad (\because 演習10.13の式変形(A))\\ &=N_{k}\left(\mathbf{S}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\right) \end{aligned}

(10.72)については

p(\mathbf{Z} \mid \boldsymbol{\pi})=\prod_{n=1}^{N} \prod_{k=1}^{K} \pi_{k}^{z_{n k}} \tag{10.37}

から直ちに求められる。

\begin{aligned} \mathbb{E}_{\mathbf{Z},\boldsymbol{\pi}}[\ln p(\mathbf{Z}\mid \boldsymbol{\pi})] &= \sum_{n=1}^{N}\sum_{k=1}^{K}\mathbb{E}_{\mathbf{Z},\boldsymbol{\pi}} \left[ z_{nk} \ln \pi_{k} \right] \\ &= \sum_{n=1}^{N}\sum_{k=1}^{K}\mathbb{E}_{\mathbf{Z}} \left[ z_{nk} \right] \mathbb{E}_{\boldsymbol{\pi}} \left[\ln \pi_{k} \right] \\ &= \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}\ln\tilde{\pi}_k \quad (\because (10.66)) \end{aligned}

演習 10.17

\begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}

で与えられる変分ガウス混合モデルの下界の,残りの項についての結果

\mathbb{E}[\ln p(\boldsymbol{\pi})]=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \widetilde{\pi}_{k} \tag{10.73}
\begin{aligned} \mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] &=\frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\beta_{0} / 2 \pi\right)+\ln \widetilde{\Lambda}_{k}-\frac{D \beta_{0}}{\beta_{k}}\right. \\ &\left.-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\}+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) \\ &+\frac{\left(\nu_{0}-D-1\right)}{2} \sum_{k=1}^{K} \ln \widetilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \end{aligned}\tag{10.74}
\mathbb{E}[\ln q(\mathbf{Z})]=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} \tag{10.75}
\mathbb{E}[\ln q(\boldsymbol{\pi})]=\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k}+\ln C(\boldsymbol{\alpha}) \tag{10.76}
\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})]=\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \widetilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}-\mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]\right\} \tag{10.77}

を確かめよ.


(10.39)よりp(\boldsymbol{\pi}) = \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}_{0})となることを用いて

\begin{aligned} \mathbb{E}[\ln p(\boldsymbol{\pi})] &=\mathbb{E}\left[\ln C(\boldsymbol{\alpha}_{0}) \prod_{k=1}^{K} \pi_{k}^{\alpha_{0}-1}\right] \\ &=\mathbb{E}\left[\ln C(\boldsymbol{\alpha}_{0})\right]+\mathbb{E}\left[\sum_{k=1}^{K} \ln \pi_{k}^{\alpha_{0}-1}\right] \\ &=\ln C(\boldsymbol{\alpha}_{0})+\mathbb{E}\left[\sum_{k=1}^{K}\left(\alpha_{0}-1\right) \ln \pi_{k}\right] \\ &=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \mathbb{E}[\ln \pi_{k}] \\ &=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \tilde{\pi}_{k} \end{aligned}

以上で(10.73)式が求まった。


(10.40)で導入したガウス–ウィシャート事前分布

p(\boldsymbol{\mu}, \mathbf{\Lambda}) = \prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right) \tag{10.40}

を用いて

\begin{aligned} \mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] &=\mathbb{E}\left[\ln \left[\prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right]\right] \\ &=\mathbb{E}\left[\sum_{k=1}^{K} \ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right]+\mathbb{E}\left[\sum_{k=1}^{K} \ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right] \\ &=\sum_{k=1}^{K} \mathbb{E}\left[-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\beta_{0} \mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right] \\ &+\sum_{k=1}^{K} \mathbb{E}\left[\ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\ &=\frac{1}{2}\left\{\sum_{k=1}^{K} D \ln \left( \frac{\beta_{0}}{2 \pi} \right)+\mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_k\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\ln | \mathbf{\Lambda}_{k} | \right]-\frac{1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\ &=\frac{1}{2}\left\{\sum_{k=1}^{K} D \ln \left( \frac{\beta_{0}}{2 \pi} \right)+\ln \tilde{\Lambda}_{k}-\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_k\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\ \end{aligned}

(10.74)との係数を比較して、

\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]=\sum_{k=1}^{K}\left\{\frac{D \beta_{0}}{\beta_{k}}+\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \tag{*}

および

\sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right]=\sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right] \tag{**}

であることを示せば良い。まず(*)について

\begin{aligned} \sum_{k=1}^{K} \mathbb{E}\left\{\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right\} &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}-2 \boldsymbol{\mu}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}+\beta_{k}^{-1} \mathbf{\Lambda}_{k}^{-1}-2 \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\beta_{k}^{-1} \mathbf{I}+\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}-2 \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{D \cdot \beta_{k}^{-1}+\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\mathbb{E}_{\mathbf{\Lambda}_{k}}\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\operatorname{Tr}\left[\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\mathbf{\Lambda}_{k}\right] \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\operatorname{Tr}\left[\nu_{k}\mathbf{W}_{k} \left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \quad (\because (B.80))\\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k} \left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &=\sum_{k=1}^{K}\left\{\frac{D \beta_{0}}{\beta_{k}}+\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \end{aligned}

(**)について、

\begin{aligned} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] &=\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \cdot \mathbb{E}_{\mathbf{\Lambda}_{k}}[\mathbf{\Lambda}_{k}]\right] \\ &=\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \cdot \nu_{k} \mathbf{W}_{k}\right]\quad (\because (B .80)) \\ &=\nu_{k} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right] \end{aligned}

以上で(10.74)が示された。


\begin{aligned} \mathbb{E}\left[\ln q^{\star}(\mathbf{Z})\right] &=\mathbb{E}_{\mathbf{Z}}\left[\ln \left(\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}\right)\right] \quad(\because(10.48)) \\ &=\mathbb{E}_{\mathbf{Z}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln r_{n k}\right] \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{Z}}\left[\mathbf{Z}_{n k}\right] \mathbb{E}_{z}\left[\ln r_{n k}\right] \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} \end{aligned}

\begin{aligned} \mathbb{E}\left[\ln q^{\star}(\pi)\right] &=\mathbb{E}_{\pi}[\ln (\operatorname{Dir}(\boldsymbol{\pi} \mid \boldsymbol{\alpha}))] \quad(\because(10.57)) \\ &=\mathbb{E}_{\pi}\left[\ln C(\boldsymbol{\alpha}) \prod_{k=1}^{K} \pi_{k}^{\alpha_{k}-1}\right](\because(B. 16)) \\ &=\mathbb{E}_{\pi}[\ln C(\boldsymbol{\alpha})]+\mathbb{E}_{\pi}\left[\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \pi_{k}\right] \\ &=\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k}+\ln C(\boldsymbol{\alpha}) \end{aligned}

\begin{aligned} \mathbb{E}\left[\ln q^{\star}(\boldsymbol{\mu}, \mathbf{\Lambda})\right] &=\mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \left[\prod_{k=1}^{K} q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)\right]\right] \quad(\because(10.55)) \\ &=\mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\sum_{k=1}^{K} \ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)\right] \\ & =\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right]+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right)\right] \\ &= \sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{-\frac{D}{2} \ln 2 \pi+\frac{D}{2} \ln \beta_{k}+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\left(\beta_{k} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\right\} \\ &+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \mathbf{\Lambda}_{k}\right]\right\} \\ &= \sum_{k=1}^{K} \left\{ \frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k} \left[ \ln \left|\mathbf{\Lambda}_{k}\right| \right] + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{1}{2} \operatorname{Tr}\left[\left(\beta_{k} \mathbf{\Lambda}_{k}\right)\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right] \right\} \\ &+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \nu_{k} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \mathbf{W}_{k}\right]\right\} \quad (\because 先述の(**)を利用) \\ &= \sum_{k=1}^{K} \left\{ \frac{1}{2} \ln \tilde{\Lambda}_{k} + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{D}{2} \right\} +\sum_{k=1}^{K} \left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \mathbb{E}_{\mathbf{\Lambda}_k}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\nu_{k} D}{2}\right\} \\ \end{aligned}

途中でMatrix Cookbook (380)の公式

\mathbb{E}_{\mathbf{x} \sim \mathcal{N}(\mathbf{x}\mid \mathbf{m}, \mathbf{\Sigma})}\left[\left(\mathbf{x}-\mathbf{m}^{\prime}\right)^{\mathrm T} \mathbf{A}\left(\mathbf{x}-\mathbf{m}^{\prime}\right)\right]=\left(\mathbf{m}-\mathbf{m}^{\prime}\right)^{\mathrm T} \mathbf{A}\left(\mathbf{m}-\mathbf{m}^{\prime}\right)+\operatorname{Tr}(\mathbf{A} \mathbf{\Sigma})

を用いた。

(\textrm{B}.82)からウィシャート分布\mathcal{W}(\mathbf{\Lambda} \mid \mathbf{W}, \nu)のエントロピーは

-\ln B(\mathbf{W}, \nu)-\frac{(\nu-D-1)}{2} \mathbb{E}[\ln |\mathbf{\Lambda}|]+\frac{\nu D}{2} \tag{B.82}

であり、これを教科書P.196では\mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]とおいているので、

\mathbb{E}\left[\ln q^{\star}(\boldsymbol{\mu}, \mathbf{\Lambda})\right] = \sum_{k=1}^{K} \left\{ \frac{1}{2} \ln \tilde{\Lambda}_{k} + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{D}{2} - \mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]\right\} \tag{10.77}

となり(10.77)を得た。

Discussion