はじめに
PRML解答例まとめを参照
演習 10.1
観測データの対数周辺尤度\ln p(\mathbf{X})は
\ln p(\mathbf{X})=\mathcal{L}(q)+\mathrm{KL}(q \| p) \tag{10.2}
のように二つの項に分解できることを確かめよ.ここで,\mathcal{L}(q), \mathrm{KL}(q \| p)は(10.3), (10.4)
\mathcal{L}(q) = \int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \tag{10.3}
\mathrm{KL}(q \| p) =-\int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \tag{10.4}
で与えられる.
(10.3)と(10.4)を足すと
\begin{aligned}
\mathcal{L}(q)+\mathrm{KL}(q \| p)
&=\int q(\mathbf{Z})\left[\ln \frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}-\ln \frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right] d \mathbf{Z} \\
&=\int q(\mathbf{Z})[\ln p(\mathbf{X}, \mathbf{Z})-\ln p(\mathbf{Z} \mid \mathbf{X})] d \mathbf{Z} \\
&=\int q(\mathbf{Z})[\ln p(\mathbf{X}, \mathbf{Z})-\ln p(\mathbf{X}, \mathbf{Z})+\ln p(\mathbf{X})] d\mathbf{Z} \\
&=\ln p(\mathbf{X})\int q(\mathbf{Z})d \mathbf{Z} \\
&=\ln p(\mathbf{X})
\end{aligned}
よって(10.2)式が示された。
演習 10.2
\mathbb{E}\left[z_{1}\right]=m_{1}および\mathbb{E}\left[z_{2}\right]=m_{2}を用いて連立方程式
\begin{aligned}
m_{1}&=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(\mathbb{E}\left[z_{2}\right]-\mu_{2}\right) \quad (10.13) \\ m_{2}&=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(\mathbb{E}\left[z_{1}\right]-\mu_{1}\right) \quad (10.15)
\end{aligned}
を解き,もともとの分布p(\mathbf{z})が非特異ならば,近似された因子分布の平均についての一意な解は\mathbb{E}\left[z_{1}\right]=\mu_{1}および\mathbb{E}\left[z_{2}\right]=\mu_{2}となることを示せ.
(10.13)式と(10.15)式に、\mathbb{E}\left[z_{1}\right]=m_{1}と\mathbb{E}\left[z_{2}\right]=m_{2}を代入して、
\begin{aligned}
m_{1}&=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(m_2-\mu_{2}\right)\\
m_{2}&=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(m_1-\mu_{1}\right)
\end{aligned}
これを行列の形で表すと、
\begin{aligned}
\left[\begin{array}{cc}
1 & \Lambda _{11}^{-1}\Lambda_{12} \\
\Lambda_{22}^{-1}\Lambda_{21} & 1
\end{array}\right]
\left[\begin{array}{rr}
m_1 - \mu_1 \\
m_2- \mu_2
\end{array}\right]
=\left[\begin{array}{rr}
0 \\
0
\end{array}\right]
\end{aligned}
一番左の2 \times 2行列には逆行列が存在する(*)ので、左から逆行列をかけてm_1=\mu_1, m_2=\mu_2を得る。
(*) 一番左の行列に逆行列が存在しないと仮定すると、行列式が0、つまり
\begin{aligned}
&1-\Lambda _{11}^{-1}\Lambda_{12}
\Lambda_{22}^{-1}\Lambda_{21} =0\\
\Leftrightarrow & \Lambda _{11}\Lambda_{22}-
\Lambda_{12}\Lambda_{21} =0\\
\Leftrightarrow & \det \mathbf \Lambda =0
\end{aligned}
となってしまい、元の分布p(\mathbf{z})が特異であることを意味する。(精度行列の逆行列が存在しない、すなわち共分散行列が定義できない。)
演習 10.3
q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right) \tag{10.5}
の形の分解された変分分布q(\mathbf{Z})を考えよう.ラグランジュ乗数法を用いて,カルバック-ライブラーダイバージェンス\textrm{KL}(p \| q)を因子の一つq_i(\mathbf{Z}_i)について他の因子を固定して最小化すると,解
q_{j}^{\star}\left(\mathbf{Z}_{j}\right)=\int p(\mathbf{Z}) \prod_{i \neq j} \mathrm{~d} \mathbf{Z}_{i}=p\left(\mathbf{Z}_{j}\right) \tag{10.17}
が得られることを確かめよ.
(10.16)式からKLダイバージェンスは
\begin{aligned}
KL(p \parallel q) &= -\int p(\mathbf{Z})\left[\sum^M_{i=1}\ln q_i(\mathbf{Z}_i)\right]d\mathbf{Z}+const\\
&=-\int p(\mathbf{Z})\left[\ln q_j(\mathbf{Z}_j)+\sum^M_{i\neq j}\ln q_i(\mathbf{Z}_i)\right]d\mathbf{Z}+const\\
&=-\int p(\mathbf{Z})\ln q_j(\mathbf{Z}_j)d\mathbf{Z}+const\\
&=-\int\left[\int p(\mathbf{Z})\prod_{i\neq j}d\mathbf{Z}_i\right]\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+const\\
&=-\int p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+const
\end{aligned}
と計算できる.ここでconstの項は同一の項にはなっていないことに留意.2行目から3行目への式変形ではq_jに依存しない積分をconstに押し込んだ.最後の式変形では\mathbf{Z}の積分を各\mathbf{Z}の添字(1\dots i\dots j \dots M)についてバラして添字j以外の積分の順序を入れ替え,p(\mathbf{Z})においてj以外の添字で積分周辺化したためp(\mathbf{Z}_j)のみが残っている.
q_j(\mathbf{Z}_j)が正規化されているという条件を利用してラグランジュ乗数\lambdaを導入して,ラグランジュ未定乗数法によりKLダイバージェンスの最小化は以下の式の最小化に書き換えることができて
L = -\int p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+\lambda\left(\int q_j(\mathbf{Z}_j)d\mathbf{Z}_j-1\right)
を最小化すれば良いことがわかる.ここで元のKLダイバージェンスの式にあった定数項は\mathbf{Z}_jに依存しない項なので最小化に影響はなく無視した.
これを積分汎関数の形に変形して変分法を用いて解けるようにしたい.
\mathbf{Z}_jに依存しない項を積分に含めるために\delta関数を用いてLは
以下のように書き直すことができる
L=\int\left\{-p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)+\lambda q_j(\mathbf{Z}_j)-\lambda\delta(\mathbf{Z}_j)\right\}d\mathbf{Z}_j
被積分関数を
G(p,q;\delta)=-p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)+\lambda q_j(\mathbf{Z}_j)-\lambda\delta(\mathbf{Z}_j)
とおくとLを最小化するq_j^*はオイラー・ラグランジュ方程式から
\frac{\partial G}{\partial q}=0
-\frac{p(\mathbf{Z}_j)}{q_j(\mathbf{Z}_j)} + \lambda = 0
\mathbf{Z}_jについて積分して
よって
q_j^*=p(\mathbf{Z}_j)=\int p(\mathbf{Z})\prod_{i\neq j}d\mathbf{Z}_i
が得られる.
変分法について補足
蛇足かもしれないけど変分法についてちょっと勉強したので補足.上巻の付録Dに変分法の説明が書いてあるけど被積分関数として関数一つとその一回導関数を含む場合についての説明だった.一般化した場合変分問題の解法であるオイラー・ラグランジュ方程式がどのような形になるか調べた.
高階導関数を含む(被積分関数がG(y,y',y'',...,y^{(m)}, x)と書ける)場合は
\frac{\partial G}{\partial y}-\frac{d}{dx}\frac{\partial G}{\partial y'}+\frac{d^2}{dx^2}\frac{\partial G}{\partial y''}+...+(-1)^{(m)}\frac{d^m}{dx^m}\frac{\partial G}{\partial y^{(m)}}=0
複数の関数を含む(被積分関数がG(y,y',z, z',x)と書ける)場合には
\frac{\partial G}{\partial y}-\frac{d}{dx}\frac{\partial G}{\partial y'}=0
\frac{\partial G}{\partial z}-\frac{d}{dx}\frac{\partial G}{\partial z'}=0
のように書けるらしい.今回の場合,最小化したい積分汎関数は同関数を含まず,複数の関数を含む形になっていたため単に注目する関数の偏微分を考えるだけでよかった(という理解であってますか...)
演習 10.4
ある固定された分布p(\mathbf{x})をガウス分布q(\mathbf{x}) = \mathcal{N}(\mathbf{x}\mid \boldsymbol{\mu}, \mathbf{\Sigma})を用いて近似したいとしよう.KLダイバージェンス\textrm{KL}(p \| q)をガウス分布q(\mathbf{x})に関して書き下して微分することにより,\textrm{KL}(p \| q)を\boldsymbol{\mu}および\mathbf{\Sigma}について最小化すると,結果として\boldsymbol{\mu}はp(\mathbf{x})の下での\mathbf{x}の期待値になり,\mathbf{\Sigma}はその共分散になることを示せ.
\begin{aligned}
\mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} d \mathbf{x} \\
&=-\int p(\mathbf{x}) \ln q(\mathbf{x}) d \mathbf{x}+\text { const } \\
&=-\int p(\mathbf{x})\left[-\frac{D}{2} \ln 2 \pi-\frac{1}{2} \ln |\boldsymbol{\Sigma}|-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\
&=\int p(\mathbf{x})\left[\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\
&=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\int p(\mathbf{x})\left[\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\
&=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\int p(\mathbf{x}) \frac{1}{2}\left[\mathbf{x}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}-2 \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}\right] d \mathbf{x}+\text { const } \\
&=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \int p(\mathbf{x}) \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1}\left(\mathbf{x} \mathbf{x}^{\mathrm{T}}\right)\right] d \mathbf{x}-\boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbb{E}[\mathbf{x}]+\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const } \\
&=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1} \mathbb{E}\left(\mathbf{x} \mathbf{x}^{\mathrm{T}}\right)\right]-\boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbb{E}[\mathbf{x}]+\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const }
\end{aligned}
D : \mathbf{x}の次元.
\mathrm{KL}(p \| q) を \boldsymbol{\mu} について微分:
\frac{\partial \mathrm{KL}}{\partial \boldsymbol{\mu}}=-\Sigma^{-1} \mathbb{E}[x]+\Sigma^{-1} \mu=0
よって
\boldsymbol{\mu}=\mathbb{E}[\mathbf{x}]. \boldsymbol{\mu}=\mathbb{E}[\mathbf{x}] のとき, KL divergenceは:
\mathrm{KL}(p \| q)=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1} \mathbb{E}\left(\mathbf{x} \mathbf{x}^{\mathrm{T}}\right)\right]-\frac{1}{2} \boldsymbol{\mu}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const }
この\mathrm{KL}(p \| q) を \Sigma について微分すると:
\frac{\partial \mathrm{KL}}{\partial \Sigma}=\frac{1}{2} \Sigma^{-1}-\frac{1}{2} \Sigma^{-1} \mathbb{E}\left[\mathbf{x} \mathbf{x}^{\mathrm{T}}\right] \Sigma^{-1}+\frac{1}{2} \Sigma^{-1} \mu \mu^{\mathrm{T}} \Sigma^{-1}=0
'MatrixCookBook'内の\mathrm{Eq}(61) と \mathrm{Eq}(124) ,を用いた. \Sigma, \mathbb{E}\left[\mathbf{x x}^{\mathrm{T}}\right] は対象行列:
\frac{\partial \mathbf{a}^{\mathrm{T}} \mathbf{X}^{-1} \mathbf{b}}{\partial \mathbf{X}}=-\mathbf{X}^{-\mathrm{T}} \mathbf{a b}^{\mathrm{T}} \mathbf{X}^{-\mathrm{T}} \quad and \quad \frac{\partial \operatorname{Tr}\left(\mathbf{A} \mathbf{X}^{-1} \mathbf{B}\right)}{\partial \mathbf{X}}=-\mathbf{X}^{-\mathrm{T}} \mathbf{A}^{\mathrm{T}} \mathbf{B}^{\mathrm{T}} \mathbf{X}^{-\mathrm{T}}
整理すると:
\Sigma=\mathbb{E}\left[\mathbf{x x}^{\mathrm{T}}\right]-\boldsymbol{\mu} \boldsymbol{\mu}^{\mathrm{T}}=\mathbb{E}\left[\mathbf{x} \mathbf{x}^{\mathrm{T}}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}[\mathbf{x}]^{\mathrm{T}}=\operatorname{cov}[\mathbf{x}]
演習 10.5
すべての隠れ確率変数の集合\mathbf{Z}が,潜在変数\mathbf{z}とモデルパラメータ\boldsymbol{\theta}に分けられるようなモデルを考える.この変分分布を潜在変数とパラメータにq(\mathbf{z}, \boldsymbol{\theta}) = q_{\mathbf{z}}(\mathbf{z}) q_{\theta}(\boldsymbol{\theta})のように分解し,分布q_{\theta}(\boldsymbol{\theta})をq_{\theta}(\boldsymbol{\theta}) = \delta(\boldsymbol{\theta} - \boldsymbol{\theta}_0)の形の点推定で近似することを考える.ここで,\boldsymbol{\theta}_0は自由パラメータのベクトルである.このとき,この分解された分布を変分ベイズ法により最適化することは, Eステップでq_{\mathbf{z}}(\mathbf{z})を最適化し, Mステップで\boldsymbol{\theta}の完全データの対数事後分布の期待値を\boldsymbol{\theta}_0について最大化するEMアルゴリズムと等価になることを示せ.
変分ベイズの点推定がEMアルゴリズムに相当することを確かめる問題。
10.1節で述べられている通り、EMアルゴリズムと変分推論の違いの一つは、Zにθを含めないか、含めるかである。今回はZとθを分離して考えているためEMアルゴリズムの枠組みで考えられる。変分ベイズ法では、Pをよく表すようなqをKLダイバージェンス基準で求める。つまり(10.2)において、KLダイバージェンスの項を最小化することに相当する(Eステップ)
(つまり変分ベイズはEEアルゴリズムのように捉えることもできる)
実際に計算をする。θを固定して
\begin{aligned}
\mathrm{KL}(q \| p) &=-\iint q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right\} d \mathbf{Z} \\
&=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta})}\right\} d \mathbf{z} d \boldsymbol{\theta} \\
&=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}+\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta} \\
&=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}+\text { const } \\
&=-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta})\left\{\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}\right\} d \boldsymbol{\theta}+\text { const } \\
&=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z}, \boldsymbol{\theta}_{0} \mid \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \\
&=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right) p\left(\boldsymbol{\theta}_{0} \mid \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \\
&=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const }
\end{aligned}
よって、\mathrm{KL}(q \| p)を最小にするq_{\mathbf{z}}(\mathbf{z})はp\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right)が解となる。
続いて最適なθを求める。これは下限\mathcal{L}(q)を最大にするようなθを求めることに相当する。
\begin{aligned}
L(q) &=\iint q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} d \mathbf{Z} \\
&=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})}{q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta})}\right\} d \mathbf{z} d \boldsymbol{\theta} \\
&=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta} \\
&=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})\} d \mathbf{z} d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \\
&=\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \mathbb{E}_{q_{\mathbf{z}}}[\ln p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})] d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \\
&=\mathbb{E}_{q_{\mathbf{z}}(\mathbf{z})}\left[\ln p\left(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta}_{0}\right)\right]-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const }
\end{aligned}
\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}は−∞になるので無視して良いので、第一項の最大化を考えれば良い。
これは、対数事後分布の期待値を\boldsymbol{\theta}_{0}について最大化すれば良い。
演習 10.6
\alphaダイバージェンスは
\mathrm{D}_{\alpha}(p \| q)=\frac{4}{1-\alpha^{2}}\left(1-\int p(x)^{(1+\alpha) / 2} q(x)^{(1-\alpha) / 2} \mathrm{~d} x\right) \tag{10.19}
で定義される.カルバック-ライブラーダイバージェンス\textrm{KL}(p \| q)はこのとき\alpha \to 1の場合に対応することを示せ.これにはp^{\epsilon} = \exp (\epsilon \ln p)=1+\epsilon \ln p+O\left(\epsilon^{2}\right)と書き,\epsilon \to 0とすればよい.同様にして,\textrm{KL}(q \| p)は\alpha \to -1の場合に対応することを示せ.
\alpha\rightarrow1の時は、p^{\epsilon}=1+\epsilon \ln p+O\left(\epsilon^{2}\right)を利用すべく、以下のように式変形する。
\begin{aligned} D_{\alpha}(p \| q) &=\frac{4}{1-\alpha^{2}}\left(1-\int p^{(1+\alpha) / 2} q^{(1-\alpha) / 2} d x\right) \\
&=\frac{4}{1-\alpha^{2}}\left\{1-\int \frac{p}{p^{(1-\alpha) / 2}}\left[1+\frac{1-\alpha}{2} \ln q+O\left(\frac{1-\alpha}{2}\right)^{2}\right] d x\right\} \\
&=\frac{4}{1-\alpha^{2}}\left\{1-\int p \cdot \frac{1+\frac{1-\alpha}{2} \ln q+O\left(\frac{1-\alpha}{2}\right)^{2}}{1+\frac{1-\alpha}{2} \ln p+O\left(\frac{1-\alpha}{2}\right)^{2}} d x\right\} \\ &\approx \frac{4}{1-\alpha^{2}}\left\{1-\int p \cdot \frac{1+\frac{1-\alpha}{2} \ln q}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\
&=\frac{4}{1-\alpha^{2}}\left\{-\int p \cdot\left[\frac{1+\frac{1-\alpha}{2} \ln q}{1+\frac{1-\alpha}{2} \ln p}-1\right] d x\right\} \\ &=\frac{4}{(1+\alpha)(1-\alpha)}\left\{-\int p \cdot \frac{\frac{1-\alpha}{2} \ln q-\frac{1-\alpha}{2} \ln p}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &=\frac{2}{1+\alpha}\left\{-\int p \cdot \frac{\ln q-\ln p}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\
&D_{\alpha\rightarrow1}(p \| q)= -\int p \cdot(\ln q-\ln p) d x=\int p \cdot \ln \frac{p}{q}dx = \textrm{KL}(p \| q)
\end{aligned}
同様に\alpha\rightarrow-1の時は、以下のように式変形する。
\begin{aligned} D_{\alpha}(p \| q) &=\frac{4}{1-\alpha^{2}}\left(1-\int p^{(1+\alpha) / 2} q^{(1-\alpha) / 2} dx\right) \\
&=\frac{4}{1-\alpha^{2}}\left\{1-\int \left[1+\frac{1+\alpha}{2} \ln p+O\left(\frac{1+\alpha}{2}\right)^{2}\right]\frac{q}{q^{(1+\alpha)/ 2}}dx\right\} \\
&=\frac{4}{1-\alpha^{2}}\left\{1-\int q \cdot \frac{1+\frac{1+\alpha}{2} \ln p+O\left(\frac{1+\alpha}{2}\right)^{2}}{1+\frac{1+\alpha}{2} \ln q+O\left(\frac{1+\alpha}{2}\right)^{2}} dx\right\} \\
& \approx \frac{4}{1-\alpha^{2}}\left\{1-\int q \cdot \frac{1+\frac{1+\alpha}{2} \ln p}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\
&=\frac{4}{1-\alpha^{2}}\left\{-\int q \cdot\left[\frac{1+\frac{1+\alpha}{2} \ln p}{1+\frac{1+\alpha}{2} \ln q}-1\right] d x\right\} \\ &=\frac{4}{(1+\alpha)(1-\alpha)}\left\{-\int q \cdot \frac{\frac{1+\alpha}{2} \ln p-\frac{1+\alpha}{2} \ln q}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &=\frac{2}{1-\alpha}\left\{-\int q \cdot \frac{\ln p-\ln q}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\
&D_{\alpha\rightarrow-1}(p \| q)= -\int q \cdot(\ln p-\ln q)dx=\int q \cdot \ln \frac{q}{p}dx = \textrm{KL}(q \| p)
\end{aligned}
演習 10.7
一変数ガウス分布の平均と精度を,分解した変分近似を用いて求める10.1.3節の問題を考える.このとき,因子q_{\mu}(\mu)はガウス分布\mathcal{N}\left(\mu \mid \mu_{N}, \lambda_{N}^{-1}\right)となり,この平均と精度はそれぞれ
\mu_{N} =\frac{\lambda_{0} \mu_{0}+N \bar{x}}{\lambda_{0}+N} \tag{10.26}
\lambda_{N} =\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \tag{10.27}
で与えられることを示せ.同様にして因子
q_{\tau}(\tau)はガンマ分布
\textrm{Gam}(\gamma \mid a_N, b_N)となり,そのパラメータは
a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}
b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}
で与えられることを示せ.
※
(10.25)式から
\begin{aligned} \ln q_{\mu}^{\star}(\mu) &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0}\left(\mu-\mu_{0}\right)^{2}+\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0} \mu^{2}-2 \lambda_{0} \mu_{0} \mu+\lambda_{0} \mu_{0}^{2}+N \mu^{2}-2\left(\sum_{n=1}^{N} x_{n}\right) \mu+\sum_{n=1}^{N} x_{n}^{2}\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\left(\lambda_{0}+N\right) \mu^{2}-2\left(\lambda_{0} \mu_{0}+\sum_{n=1}^{N} x_{n}\right) \mu+\left(\lambda_{0} \mu_{0}^{2}+\sum_{n=1}^{N} x_{n}^{2}\right)\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]\left(\lambda_{0}+N\right)}{2}\left\{\mu^{2}-2 \frac{\lambda_{0} \mu_{0}+\sum_{n=1}^{N} x_{n}}{\lambda_{0}+N} \mu+\frac{\lambda_{0} \mu_{0}^{2}+\sum_{n=1}^{N} x_{n}^{2}}{\lambda_{0}+N}\right\}+\text { const } \end{aligned}
演習 10.8
パラメータが
a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}
b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}
で与えられる一変数ガウス分布の精度の変分事後分布を考える.ガンマ分布の平均と分散についての標準的な結果
\mathbb{E}[\tau] =\frac{a}{b} \tag{B.27}
\operatorname{var}[\tau] =\frac{a}{b^{2}} \tag{B.28}
を用いて,
N\to \inftyのとき,この変分事後分布の期待値はデータの分散の最尤推定値の逆数となり,事後分布の分散は
0に近づくことを示せ.
精度\tauはガンマ分布に従う。すなわち、
\begin{aligned}
p(\tau) = \frac{1}{\Gamma(a_N)}b_N^{a_N}\tau^{a_N-1}e^{-b\tau}
\end{aligned}
を満たす。今、ガンマ分布の標準的な結果(B.27)、(B.28)に代入すると、
\begin{aligned}
\mathbb{E}[\tau] &= \frac{a_N}{b_N} \\
&= \frac{a_{0}+\frac{N+1}{2}}{b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right]} \\
&= \frac{2 a_{0}+N+1}{2 b_{0}+\mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} + \lambda_{0}\left(\mu-\mu_{0}\right)\right]} \\
&\xrightarrow[N\to\infty]{} \frac{N}{\mathbb{E}_{\mu}\left[ \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} \right]}
\end{aligned}
これはN\to \inftyの極限でデータ分散の最尤推定量\displaystyle \frac{\sum_{n=1}^{N}(x_n-\mu)^2}{N}の逆数になっている事がわかる。
分散は
\begin{aligned}
\operatorname{var}[\tau] &= \frac{a_N}{{b_N}^2} \\
&=\frac{2\mathbb{E}[\tau]}{2b_{0}+\mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} + \lambda_{0}\left(\mu-\mu_{0}\right)\right]} \\
&\xrightarrow[N\to\infty]{} 0
\end{aligned}
となる。
演習 10.9
ガンマ分布の平均が\mathbb{E}[\tau] = a_N/b_Nになるという標準的な結果,および
\mu_{N} =\frac{\lambda_{0} \mu_{0}+N \bar{x}}{\lambda_{0}+N} \tag{10.26}
\lambda_{N} =\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \tag{10.27}
a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}
b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}
を用いて,一変数ガウス分布の分解された変分近似の持つ精度の期待値の逆数についての結果
\frac{1}{\mathbb{E}[\tau]} =\overline{x^{2}}-\bar{x}^{2} =\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\bar{x}\right)^{2} \tag{10.33}
を導け.
※問題文には書かれていないが、PRML下巻P.186の設定から\mu_{0}=a_{0}=b_{0}=\lambda_{0}=0であるとする。
まず\displaystyle \frac{1}{\mathbb{E}[\tau]}を計算する。
\begin{aligned}
\dfrac{1}{{\mathbb E}[\tau]} &= \left(\frac{a_N}{b_N}\right)^{-1} \\
&= \frac{b_N}{a_N}\\
&=\frac{b_0+\dfrac{1}{2}{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2+\lambda_0(\mu-\mu_0)^2\right]}{a_0+\dfrac{N+1}{2}} \\
&=\frac{{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right]}{N+1} \\
&=\frac{N}{N+1}\cdot\frac{1}{N}{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right] \\
&=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^N(x_n-\mu)^2\right] \\
&=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^N(x_n^2-2\mu x_n+\mu^2)\right] \\
&=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^Nx_n^2-2\mu\frac{1}{N}\sum_{n=1}^Nx_n+\frac{1}{N}\sum_{n=1}^N\mu^2\right] \\
&=\frac{N}{N+1}{\mathbb E}_\mu\left[\overline{x^2}-2\overline{x}\mu+\mu^2\right] \\
&=\frac{N}{N+1}\left(\overline{x^2}-2\overline{x}{\mathbb E}_\mu[\mu]+{\mathbb E}_\mu[\mu^2]\right)
\end{aligned}
これと
\begin{aligned}
{\mathbb E}_\mu[\mu]&= \mu_N \\
&=\frac{\lambda_0\mu_0+N\overline{x}}{\lambda_0+N} \\
&=\frac{N\overline{x}}{N}\ (\because \lambda_0 = \mu_0 = 0 )\\
&=\overline{x}
\end{aligned}
\begin{aligned}
\mathbb{E}_{\mu}\left[\mu^{2}\right] &=\operatorname{var}[\mu]+\mathbb{E}_{\mu}[\mu]^{2} \\ &=\lambda_{N}^{-1}+\overline{x}^{2} \\ &=\left(\left(\lambda_{0}+N\right) \mathbb{E}[\tau]\right)^{-1}+\overline{x}^{2} \\ &=(N \mathbb{E}[\tau])^{-1}+\overline{x}^{2} \\ &=\frac{1}{N \mathbb{E}[\tau]}+\overline{x}^{2}
\end{aligned}
よって
\begin{aligned}
\dfrac{1}{{\mathbb E}[\tau]} &= \frac{N}{N+1}\left(\overline{x^2}-2\overline{x}\cdot\overline{x}+\frac{1}{N{\mathbb E}[\tau]}+\overline{x}^2\right) \\
&=\frac{N}{N+1}\left(\overline{x^2}-\overline{x}^2+\frac{1}{N{\mathbb E}[\tau]}\right) \\
\therefore \dfrac{1}{{\mathbb E}[\tau]} &= \overline{x^2}-\overline{x}^2
\end{aligned}
一方で
\begin{aligned}
\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\overline{x}\right)^{2} &=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}^{2}-2 \overline{x} x_{n}+\overline{x}^{2}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} x_{n}^{2}-2 \overline{x} \frac{1}{N} \sum_{n=1}^{N} x_{n}+\frac{1}{N} \sum_{n=1}^{N} \overline{x}^{2} \\ &=\overline{x^{2}}-2 \overline{x} \cdot \overline{x}+\overline{x}^{2} \\ &=\overline{x^{2}}-\overline{x}^{2}
\end{aligned}
よって
\frac{1}{\mathbb{E}[\tau]} =\overline{x^{2}}-\overline{x}^{2} =\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\overline{x}\right)^{2} \tag{10.33}
を得る。
演習 10.10
モデルの事後分布を変分推論を用いて近似する際の分解
\ln p(\mathbf{X})=\mathcal{L}-\sum_{m} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, m \mid \mathbf{X})}{q(\mathbf{Z} \mid m) q(m)}\right\} \tag{10.34}
を導け.
\begin{aligned}
\mathcal{L} &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{X}, \mathbf{Z}, m)}{q(\mathbf{Z}|m)q(m)}\right\} \\
&= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})p(\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} \\
&= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} + \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{p(\mathbf{X})\right\} \\
&= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} + \ln p(\mathbf{X})
\end{aligned}
上式を整理することで、式 (10.34) を得る。
演習 10.11
分布q(m)の正規化条件をラグランジュ乗数法を用いて扱うことにより,下限
\mathcal{L}=\sum_{m} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\} \tag{10.35}
の最大値は
q(m) \propto p(m) \exp \left\{\mathcal{L}_{m}\right\} \tag{10.36}
によって得られることを示せ.
問題には「ラグランジュ乗数法を用いて」とあるが、ラグランジュ乗数法を用いない方が簡単に解ける (実際公式の解答も使っていない)。
まず、変分下限\mathcal{L}を式変形する。
\begin{aligned}
\mathcal{L} &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{X}, \mathbf{Z}, m)}{q(\mathbf{Z}|m)q(m)}\right\} \\
&= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})p(\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} \\
&= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\left\{\ln p(\mathbf{Z}, m|\mathbf{X}) + \ln p(\mathbf{X}) - \ln q(\mathbf{Z}|m) - \ln q(m)\right\} \\
&= \sum_m q(m) \left(\ln p(m) - \ln q(m) + \sum_{\mathbf{Z}} q(\mathbf{Z}|m)\left\{\ln p(\mathbf{Z}, m|\mathbf{X}) - \ln q(\mathbf{Z}|m)\right\} \right) \\
&= \sum_m q(m)\left\{\ln\left(p(m)\exp(\mathcal{L}_m)\right) - \ln q(m)\right\} \\
&= \sum_m q(m)\ln\left\{\frac{p(m)\exp(\mathcal{L}_m)}{q(m)}\right\}
\end{aligned}
これはp(m)\exp(\mathcal{L}_m)とq(m)とのKLダイバージェンスに-1をかけたものに等しいので、
q(m) \propto p(m)\exp(\mathcal{L}_m)
のとき\mathcal{L}が最大となる。
(=ではなく\proptoなのは、p(m)\exp(\mathcal{L}_m)が正規化されているとは限らないため)
ラグランジュ未定乗数法を使う場合は以下のようになる。
q(m)の正規化条件を加えたラグランジュ関数を以下のように設定する。
\begin{aligned}
L & =\mathcal{L}+\lambda\left(\sum_m q(m)-1\right) \\
& =\sum_m \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda\left(\sum_m q(m)-1\right) \\
& =\sum_m\left[\sum_\mathbf{Z} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda q(m)\right]-\lambda \\
& =\sum_{m} q(m)\left[\sum_\mathbf{Z} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda\right]-\lambda \hspace{1em} \cdots (A)
\end{aligned}
ここでAの第1項の1, \ldots, mの各q(m)[\ \ ]を汎関数G_{1}, \ldots G_{m}とすると、Lの停留条件は付録Dより、\frac{\partial G}{\partial q(m)} = 0から求めることができる。すなわち、
G=q(m)\left[\sum_\mathbf{Z} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda\right]
\begin{aligned}
\frac{\partial G}{\partial q(m)}
&=\frac{\partial q(m)}{\partial q(m)}\left[\sum_z q(\mathbf{Z} \mid x) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid x) q(m)}\right\}+\lambda\right] + q(m) \frac{\partial}{\partial q(m)}\left[\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda\right] \\
&= \left[\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda\right] \\
&+ q(m) \left[ \frac{\partial}{\partial q(m)} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\} - \frac{\partial}{\partial q(m)} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln q(m) + \frac{\partial \lambda}{\partial q(m)}\right] \\
&= \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda + q(m) \left[ 0 - \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m)\cdot \frac{1}{q(m)} + 0 \right] \\
&= \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda - \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \\
&= \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\}+\lambda - 1 \\
&= \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m)}\right\} - \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln q(m) + \lambda - 1 \\
&= \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m)}\right\} - \ln q(m) + \lambda - 1 = 0\\
\end{aligned}
これを変形して
\ln q(m) = \lambda - 1 + \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m)}\right\}
\begin{aligned}
q(m) &= \exp\left\{\lambda - 1 + \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m)}\right\}\right\} \\
&= \exp(\lambda - 1) \cdot \exp\left\{\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}\mid m) p(m))}{q(\mathbf{Z} \mid m)}\right\}\right\} \\
&= \exp(\lambda - 1) \cdot \exp\left\{\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}\mid m)}{q(\mathbf{Z} \mid m)}\right\} + \ln p(m)\right\} \\
&= \exp(\lambda - 1) \cdot \exp\left[ \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln p(m)\right]\cdot \exp\left\{\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}\mid m)}{q(\mathbf{Z} \mid m)}\right\}\right\} \\
&= \exp(\lambda - 1) \cdot p(m) \cdot \exp\left\{\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}\mid m)}{q(\mathbf{Z} \mid m)}\right\}\right\} \\
&\propto p(m) \cdot \exp\left\{\sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}\mid m)}{q(\mathbf{Z} \mid m)}\right\}\right\} \\
&= p(m) \cdot \exp(\mathcal{L}_{m}) \hspace{2em} \because \mathcal{L}_{m} = \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}\mid m)}{q(\mathbf{Z} \mid m)}\right\}, \text{式(10.36)}
\end{aligned}
演習 10.12
同時分布
p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu}, \mathbf{\Lambda})=p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda}) p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\mu} \mid \mathbf{\Lambda}) p(\mathbf{\Lambda}) \tag{10.41}
から始めて一般的な結果
\ln q_{j}^{\star}\left(\mathbf{Z}_{j}\right)= \mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})]+\mathrm{const} \tag{10.9}
を適用することで,ベイズ混合ガウス分布の潜在変数の最適な変分事後分布
q^{\star}(\mathbf{Z})は
q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}} \tag{10.48}
で与えられることを,本文の段階を確かめることで示せ.
※教科書P.190の(10.43)–(10.49)の導出を確認する問題。
\begin{aligned} \ln q^{\star}(\mathbf{Z}) &=\mathbb{E}_{\boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu} \mathbf{\Lambda}}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\boldsymbol{\pi}}, \mathbf{\Lambda})]+\text { const. } \\
&=\mathbb{E}_{\boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu}, \mathbf{\Lambda}}[\ln [p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}}) p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda}) p(\boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\mu} \mid \mathbf{\Lambda}) p(\mathbf{\Lambda})]]+\text { const } \end{aligned}
Zに依存しない項はconst.となるので、
\ln q^{\star}(\mathbf{Z})=\mathbb{E}_{\boldsymbol{\pi}}[\ln p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}})]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\text { const. }
(10.37)と(10.38)を代入して
\begin{aligned} \ln q^{\star}(\mathbf{Z})&=\mathbb{E}_{\boldsymbol{\pi}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{nk} \ln \pi_{k} \right]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right] + \textrm{const.} \\
&=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{n k}\left(\mathbb{E}_{\boldsymbol{\pi}}\left[\ln \pi_{k} \right]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right]\right)\right\} + \textrm{const.} \\
&=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{nk} \left(\mathbb{E}_{\boldsymbol{\pi}}\left[\ln \pi_{k} \right]+\frac{1}{2} \mathbb{E}[\ln \mathbf{\Lambda}]-\frac{D}{2} \ln (2 \pi)-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{n}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{n}\right)\right]\right)\right\} + \textrm{const.} \\
&\equiv\sum_{n=1}^{N} \sum_{k=1}^{K} z_{nk}\ln \rho_{nk} + \textrm{const.}
\end{aligned}
最後に本文中で定義した
\begin{aligned} \ln \rho_{n k} &= \mathbb{E}\left[\ln \pi_{k}\right]+\frac{1}{2} \mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\frac{D}{2} \ln (2 \pi) \\ &-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \end{aligned} \tag{10.46}
を用いた。
これを用いて両辺の指数を取れば
q^{\star}(\mathbf{Z}) \propto \prod_{n=1}^{N} \prod_{k=1}^{K} \rho_{n k}^{z_{n k}} \tag{10.47}
を得る。また、この分布は正規化されている必要があることと,各nの値についてz_{nk}は二値ですべてのkの値にわたる和が1であることに注意すると,(10.48), (10.49)を得る。
q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}, \quad r_{n k}=\frac{\rho_{n k}}{\sum_{j=1}^{K} \rho_{n j}}
演習 10.13
\begin{aligned} \ln q^{\star} &(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=\ln p(\boldsymbol{\pi})+\sum_{n=1}^{N} \ln p\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)+\mathbb{E}_{\mathbf{Z}}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})] \\ &+\sum_{n=1}^{N} \sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)+\text { const. } \end{aligned} \tag{10.54}
から始めて,ベイズ混合ガウス分布における\boldsymbol{\mu}_kと\mathbf{\Lambda}_kの最適な変分事後分布についての結果
q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}
を導き,この分布のパラメータが
\beta_{k} =\beta_{0}+N_{k} \tag{10.60}
\mathbf{m}_{k} =\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \tag{10.61}
\mathbf{W}_{k}^{-1} =\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{\beta_{0} N_{k}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \tag{10.62}
\nu_{k}=\nu_{0}+N_{k} \tag{10.63}
で与えられることを確かめよ.
※多変数で平均と精度がともに未知な場合、上巻P.100の(2.157)式にあるガウス–ウィシャート分布の形の共役事前分布を取ることを利用する。
\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)=\left(\frac{1}{2 \pi \beta_{0}}\right)^{\frac{D}{2}}\left(\left|\mathbf{\Lambda}_{k}\right|\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_0\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_0\right)\right\}
\mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)=B\left(\mathbf{W}_{0}, \nu_{0}\right)\left|\mathbf{\Lambda}_{k}\right|^{\left(\nu_{0}-D-1\right) / 2} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right)\right) \tag{B .78}
を利用して(10.54)式のうち\boldsymbol{\mu}_kと\mathbf{\Lambda}_kに依存する項を考える。ただし
q^{\star}(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q^{\star}(\boldsymbol{\pi}) \prod_{k=1}^{K} q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \tag{10.55}
で示されているように、\prod_{k=1}^{K}の部分は外に出ていることに留意する。
\begin{aligned}\ln q^{\star}(\boldsymbol{\mu}_k, \mathbf{\Lambda}_k) &= \ln p\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\
&= \ln \left[\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right] +\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\
&= \ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)+ \ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right) +\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\
&=\frac{1}{2}\ln |\mathbf{\Lambda}_k| - \frac{\beta_0}{2}(\boldsymbol{\mu}_k - \mathbf{m}_0)^{\mathrm T}\mathbf{\Lambda}_k(\boldsymbol{\mu}_k - \mathbf{m}_0) +\frac{\nu_{0}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\
&+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right)+\textrm{const.}
\end{aligned}
これをさらに\ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right ) = \ln q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) + \ln q^{\star}\left(\mathbf{\Lambda}_{k}\right)の形に分解する。\boldsymbol{\mu}_{k}に依存する項の部分を取り出す。
\begin{aligned}\ln q^{*}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) &= -\frac{1}{2} \boldsymbol{\mu}_{k}^{\mathrm T}\left[\beta_{0}+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\right] \mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} +\boldsymbol{\mu}_{k}^{\mathrm T} \mathbf{\Lambda}_{k}\left[\beta_{0} \mathbf{m}_0+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right] \mathbf{x}_{n}\right]+\textrm{const.} \\
&= -\frac{1}{2} \boldsymbol{\mu}_{k}^{\mathrm T}(\beta_{0}+N_k) \mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} +\boldsymbol{\mu}_{k}^{\mathrm T} \mathbf{\Lambda}_{k}\left[\beta_{0} \mathbf{m}_0+ N_k \overline{\mathbf{x}}_k \right]+\textrm{const.}\quad (\because (10.50)-(10.52))\end{aligned}
この形は\boldsymbol{\mu}_{k}についての二次形式となっており、両辺の指数を取れば多変数ガウス分布の形で
q^{\star}\left(\boldsymbol{\mu}_{k}\mid \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)
と書ける。ただし
\begin{aligned} \beta_{k} &=\beta_{0}+N_{k} \\ \mathbf{m}_{k} &=\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \end{aligned}
である。
続いてq^{\star}(\mathbf{\Lambda}_k)について、これは\ln q^{\star}(\mathbf{\Lambda}_k) = \ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right ) -\ln q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right)から求めると
\begin{aligned}
\ln q^{*}\left(\mathbf{\Lambda}_{k}\right) &=\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) +\frac{\nu_{0}-D-1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\
&+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right) - \ln q^{\star}\left(\boldsymbol{\mu}_{k}\mid \mathbf{\Lambda}_{k}\right) +\textrm{const.}\\
&= \frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) +\frac{\nu_{0}-D-1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\
&+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right) \\
&-\frac{1}{2} \ln \left|\beta_{k} \mathbf{\Lambda}_{k}\right|-\frac{\beta_{k}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right) +\textrm{const.}\\
&=\frac{\nu_{0}-D-1}{2}\ln|\mathbf{\Lambda}_k|+\frac{1}{2}\sum_{n=1}^{N}\mathbb{E}[z_{nk}]\ln |\mathbf{\Lambda}_k| \\
&-\frac{1}{2} \operatorname{Tr}\left[\left\{\beta_{0}\left(\boldsymbol{\mu}_k-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}[z_{nk}]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_k\right)^{\mathrm T} \right.\right. \\
&\left.\left.-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\mathbf{W}_{0}^{-1}\right\} \mathbf{\Lambda}_{k}\right]+\textrm{const.}
\end{aligned}
これがウィシャート分布の対数形
\ln \mathcal{W}=\ln B(\mathbf{W}_k, \nu_{k})+\frac{\nu_{k}-D-1}{2}\ln\left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{k}^{-1} \mathbf{\Lambda}_{k}\right)
となれば良い(B(\mathbf{W}_{k},\nu_{k})は正規化の定数項)。係数を比較して、
\nu_{k}=\nu_{0}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]=\nu_{0}+N_{k}
\mathbf{W}_{k}^{-1}=\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T}
となる。
最後の\mathbf{W}_k^{-1}が(10.62)の形になることをがんばって計算で示す。
\begin{aligned}\mathbf{W}_{k}^{-1}&=\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \\
&=\mathbf{W}_{0}^{-1}+\beta_{0} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}-2 \beta_{0} \mathbf{m}_{0} \boldsymbol{\mu}_{k}^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}+2 \beta_{k} \mathbf{m}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} -\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}
+\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \boldsymbol{\mu}_{k}^{\mathrm T}+\sum_{n=1}^{N} r_{n k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} \\
&=\mathbf{W}_{0}^{-1}+\underbrace{\left( \sum_{n=1}^{N}r_{nk}+\beta_{0}-\beta_{k} \right)}_{0}\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} -2\underbrace{\left(\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n}+\beta_{0} \mathbf{m}_{0}-\beta_{k} \mathbf{m}_{k}\right)}_{0} \boldsymbol{\mu}_{k}^{\mathrm T} + \sum_{n=1}^{N} r_{nk} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \\
&=\mathbf{W}_{0}^{-1}+ \underbrace{\sum_{n=1}^{N} r_{nk} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}}_{(A)} + \underbrace{\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}}_{(B)} \quad (\because \beta_{k} \mathbf{m}_{k}=\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}) \\
&=\mathbf{W}_{0}^{-1} + \underbrace{N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}}_{(A)} + \underbrace{\frac{\beta_{0} N_{k}}{\beta_{k}} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{\beta_{0} N_{k}}{\beta_{k}}\left(2 \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T}\right)}_{(B)} \\
&=\mathbf{W}_{0}^{-1} + N_{k} \mathbf{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{k}}\left( \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T} -2\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm T} + \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T} \right) \\
&=\mathbf{W}_{0}^{-1} + N_{k} \mathbf{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{0} + N_{k}}\left( \overline{\mathbf{x}}_{k} - \mathbf{m}_{0} \right)\left( \overline{\mathbf{x}}_{k} - \mathbf{m}_{0} \right)^{\mathrm T}
\end{aligned}
以上で(10.62)が示された。
途中の式変形(A)について
\begin{aligned}
\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}&=\sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm T}-\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \mathbf{x}_{n} \overline{\mathbf{x}}_{k}^{\mathrm T}\right]\\
&=\sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm T}+\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right) \overline{\mathbf{x}}_{k}^{\mathrm T}\right]\\
&=N_{k} \mathbf{S}_{k}+\sum_{n=1}^{N} r_{n k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right) \overline{\mathbf{x}}_{k}^{\mathrm T}\right] \\
&=N_{k} \mathbf{S}_{k}+\sum_{n=1}^{N} r_{n k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 \sum_{n=1}^{N} r_{nk} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}\\
&=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}\\
&=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}
\end{aligned}
途中の式変形(B)について
\begin{aligned}
\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} &=\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm T} \\
&=\left(1-\frac{\beta_{0}}{\beta_{k}}\right) \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{2}{\beta_{k}} \beta_{0} N_{k} \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T} \\
&=\frac{\beta_{0} N_{k}}{\beta_{k}} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{\beta_{0} N_{k}}{\beta_{k}}\left(2 \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T}\right)
\end{aligned}
となることを用いた。
演習 10.14
q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}
の分布を使って,
\begin{aligned}& \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\
=&\ D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\end{aligned}\tag{10.64}
の結果を確かめよ.
期待値の定義を使って計算していく。
\begin{aligned} & \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\
=& \iint\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) d \boldsymbol{\mu}_{k} d \mathbf{\Lambda}_{k} \\
=&\int\left\{\int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) d \boldsymbol{\mu}_{k}\right\} q^{\star}\left(\mathbf{\Lambda}_{k}\right) d \mathbf{\Lambda}_{k} \\
=&\int\underbrace{\left\{\int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) d \boldsymbol{\mu}_{k}\right\}}_{(A)} q^{\star}\left(\mathbf{\Lambda}_{k}\right) d \mathbf{\Lambda}_{k}
\end{aligned}
(A)について、
\begin{aligned} & \int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \Lambda_{A}\right)^{-1}\right) d \boldsymbol{\mu}_{k} \\
=&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right]\quad \left(\boldsymbol{\mu}_{k} \sim \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right) \\
=&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T}\right]\right] \\
=&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \boldsymbol{\mu}_{k}+\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right)\right]\right] \\
=&\operatorname{Tr}\left[\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}\right]-2 \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \mathbf{x}_{n}^{\mathrm T} \boldsymbol{\mu}_{k}\right]+\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right]\right] \\
=&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k}\right]+\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right]\right\}\right] \\
=&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \mathbf{m}_{k}+\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}+\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right\}\right] \\
=&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right]+\operatorname{Tr}\left[\beta_{k}^{-1} \mathbf{I}\right] \\
=&\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1}
\end{aligned}
となる。ここで、\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k}\right] = \mathbf{m}_{k}と\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right] = \mathbf{m}_k \mathbf{m}_k^{\mathrm T}+\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}、さらにトレース演算子と期待値演算子はともに線形演算子で交換可能であることを用いた。Dは\mathbf{x}_nの次元数である。
これと演習問題10.13で得られたq^{\star}(\mathbf{\Lambda}_k) = \mathcal{W}(\mathbf{\Lambda}_k \mid \mathbf{W}_k, \nu_k)を用いると
\begin{aligned}
\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] &= \int \left( \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \right)q^{\star}(\mathbf{\Lambda}_k)d\mathbf{\Lambda}_k \\
&=\mathbb{E}_{\mathbf{\Lambda}_k}\left[ \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \right] \quad \left( \mathbf{\Lambda}_{k} \sim \mathcal{W}(\mathbf{\Lambda}_k \mid \mathbf{W}_k, \nu_k) \right)\\
&=\mathbb{E}_{\mathbf{\Lambda}_k}[D \beta_{k}^{-1}]+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T} \Lambda_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\right] \\
&=D \beta_{k}^{-1}+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right]\right] \\
&=D \beta_{k}^{-1}+\operatorname{Tr}\left[\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\mathbf{\Lambda}_{k}\right] \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right] \\
&=D \beta_{k}^{-1}+\operatorname{Tr}\left[\nu_{k} \mathbf{W}_{k} \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right] \\
&=D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)
\end{aligned}
となり、(10.64)式が得られた。
「これは容易に計算できて」とはなんだったのか……。
演習 10.15
\mathbb{E}\left[\mu_{k}\right]=\frac{\alpha_{k}}{\widehat{\alpha}}=\frac{\alpha_k}{\sum_{k=1}^{K}\alpha_k}\tag{B.17}
の結果を用いて,変分混合ガウス分布の混合係数の期待値は
\mathbb{E}\left[\pi_{k}\right]=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+N}\tag{10.69}
で与えられることを示せ.
単純に\mu_k \to \pi_kとし、(10.58)を用いて式を変形すれば求まる。
\begin{aligned} \mathbb{E}\left[\pi_{k}\right] &=\frac{\alpha_{k}}{\sum_{k=1}^{K} \alpha_{k}}\quad \because(\textrm{B} .17) \\ &=\frac{\alpha_{0}+N_{k}}{\sum_{k=1}^{K}\left(\alpha_{0}+N_{k}\right)}\quad \because(10.58) \\
&=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+\sum_{k=1}^{K} N_{k}}=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+N} \end{aligned}
以上で(10.69)式が求められた。
演習 10.16
\begin{aligned} \mathcal{L} &=\sum_{\mathbf{Z}} \iiint q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})}{q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})}\right\} \mathrm{d} \pi \mathrm{d} \boldsymbol{\mu} \mathrm{d} \mathbf{\Lambda} \\ &=\mathbb{E}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})]-\mathbb{E}[\ln q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})] \\ &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}
で与えられる変分ガウス混合モデルの下界の,最初の二項についての結果
\begin{aligned} \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]&= \frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{\ln \widetilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)\right.\\ &\left.-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \end{aligned} \tag{10.71}
\begin{aligned} \mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]= \sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \tilde{\pi}_{k} \end{aligned} \tag{10.72}
を確かめよ.
容易に計算できるらしいのでやってみる。(10.71)について(10.38)の観測データベクトルの条件付き分布の式
p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)^{z_{n k}} \tag{10.38}
を用いると
\begin{aligned}\mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]&=\mathbb{E}\left[z_{nk} \sum_{n=1}^{N} \sum_{k=1}^{K} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right] \\
&=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}\left[z_{n k}\left\{-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right\}\right]
\end{aligned}
今は負担率\mathbb{E}[z_{nk}]= r_{nk}を固定したときのパラメータの変分事後分布を求めているので、\mathbb{E}[z_{nk}]は分離&固定して考える(ってことで合ってるのか?)。
\begin{aligned}
&=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}\left[z_{n k}\right] \mathbb{E}\left[-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\
&=\frac{1}{2} \sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \mathbb{E}[-D \ln (2 \pi)]+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\
&=\frac{1}{2} \sum_{k=1}^{N} \sum_{k=1}^{K} r_{n k}\left[-D \ln (2 \pi)+\ln \tilde{\Lambda}_{k}-\left(D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right)\right] \quad (\because (10.64))\\
&=\frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{n=1}^{N} r_{n k}\left(-D \ln (2 \pi)+\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}\right)-\sum_{n=1}^{N} r_{n k} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\} \\
&= \frac{1}{2} \sum_{k=1}^{K} \left\{ N_{k}\left(-D \ln(2 \pi)+\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}\right)-\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\} \\
&= \frac{1}{2} \sum_{k=1}^{K} N_{k} \left\{ \ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}- \nu_{k}\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right) -\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right) -D \ln(2 \pi) \right\} \quad (\because (*))
\end{aligned}
以上で(10.71)式が示された。
(*)の式変形の\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)について
\begin{aligned}
\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)
&=\nu_{k} \sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right] \\
&=\nu_{k} \sum_{n=1}^{N} r_{n k}\left[\operatorname{Tr}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \\
&=\nu_{k} \operatorname{Tr}\left[\sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \\
&=\nu_{k} N_{k} \operatorname{Tr}\left[\mathbf{S}_{k} \mathbf{W}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \quad (\because (**))\\
&=\nu_{k} N_{k}\left\{\operatorname{Tr}\left[\mathbf{S}_{k} \mathbf{W}_{k}\right]+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\}
\end{aligned}
(**)の式変形について
\begin{aligned} \sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} &= \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \sum_{n=1}^{N} r_{n k} \mathbf{m}_{k}^{\mathrm T} \mathbf{x}_{n}+\sum_{n=1}^{N} r_{n k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \\
&=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 N_{k} \mathbf{m}_{k}^{\mathrm T} \overline{\mathbf{x}}_{k}+N_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \quad (\because 演習10.13の式変形(A))\\
&=N_{k}\left(\mathbf{S}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\right) \end{aligned}
(10.72)については
p(\mathbf{Z} \mid \boldsymbol{\pi})=\prod_{n=1}^{N} \prod_{k=1}^{K} \pi_{k}^{z_{n k}} \tag{10.37}
から直ちに求められる。
\begin{aligned}
\mathbb{E}_{\mathbf{Z},\boldsymbol{\pi}}[\ln p(\mathbf{Z}\mid \boldsymbol{\pi})] &= \sum_{n=1}^{N}\sum_{k=1}^{K}\mathbb{E}_{\mathbf{Z},\boldsymbol{\pi}} \left[ z_{nk} \ln \pi_{k} \right] \\
&= \sum_{n=1}^{N}\sum_{k=1}^{K}\mathbb{E}_{\mathbf{Z}} \left[ z_{nk} \right] \mathbb{E}_{\boldsymbol{\pi}} \left[\ln \pi_{k} \right] \\
&= \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}\ln\tilde{\pi}_k \quad (\because (10.66))
\end{aligned}
演習 10.17
\begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}
で与えられる変分ガウス混合モデルの下界の,残りの項についての結果
\mathbb{E}[\ln p(\boldsymbol{\pi})]=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \widetilde{\pi}_{k} \tag{10.73}
\begin{aligned}
\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] &=\frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\beta_{0} / 2 \pi\right)+\ln \widetilde{\Lambda}_{k}-\frac{D \beta_{0}}{\beta_{k}}\right. \\ &\left.-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\}+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) \\ &+\frac{\left(\nu_{0}-D-1\right)}{2} \sum_{k=1}^{K} \ln \widetilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \end{aligned}\tag{10.74}
\mathbb{E}[\ln q(\mathbf{Z})]=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} \tag{10.75}
\mathbb{E}[\ln q(\boldsymbol{\pi})]=\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k}+\ln C(\boldsymbol{\alpha}) \tag{10.76}
\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})]=\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \widetilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}-\mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]\right\} \tag{10.77}
を確かめよ.
(10.39)よりp(\boldsymbol{\pi}) = \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}_{0})となることを用いて
\begin{aligned}
\mathbb{E}[\ln p(\boldsymbol{\pi})] &=\mathbb{E}\left[\ln C(\boldsymbol{\alpha}_{0}) \prod_{k=1}^{K} \pi_{k}^{\alpha_{0}-1}\right] \\
&=\mathbb{E}\left[\ln C(\boldsymbol{\alpha}_{0})\right]+\mathbb{E}\left[\sum_{k=1}^{K} \ln \pi_{k}^{\alpha_{0}-1}\right] \\
&=\ln C(\boldsymbol{\alpha}_{0})+\mathbb{E}\left[\sum_{k=1}^{K}\left(\alpha_{0}-1\right) \ln \pi_{k}\right] \\
&=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \mathbb{E}[\ln \pi_{k}] \\
&=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \tilde{\pi}_{k}
\end{aligned}
以上で(10.73)式が求まった。
(10.40)で導入したガウス–ウィシャート事前分布
p(\boldsymbol{\mu}, \mathbf{\Lambda}) = \prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right) \tag{10.40}
を用いて
\begin{aligned}
\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] &=\mathbb{E}\left[\ln \left[\prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right]\right] \\
&=\mathbb{E}\left[\sum_{k=1}^{K} \ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right]+\mathbb{E}\left[\sum_{k=1}^{K} \ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right] \\
&=\sum_{k=1}^{K} \mathbb{E}\left[-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\beta_{0} \mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right] \\
&+\sum_{k=1}^{K} \mathbb{E}\left[\ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\
&=\frac{1}{2}\left\{\sum_{k=1}^{K} D \ln \left( \frac{\beta_{0}}{2 \pi} \right)+\mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_k\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]\right\} \\
&+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\ln | \mathbf{\Lambda}_{k} | \right]-\frac{1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\
&=\frac{1}{2}\left\{\sum_{k=1}^{K} D \ln \left( \frac{\beta_{0}}{2 \pi} \right)+\ln \tilde{\Lambda}_{k}-\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_k\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]\right\} \\
&+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\
\end{aligned}
(10.74)との係数を比較して、
\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]=\sum_{k=1}^{K}\left\{\frac{D \beta_{0}}{\beta_{k}}+\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \tag{*}
および
\sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right]=\sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right] \tag{**}
であることを示せば良い。まず(*)について
\begin{aligned}
\sum_{k=1}^{K} \mathbb{E}\left\{\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right\} &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}-2 \boldsymbol{\mu}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}+\beta_{k}^{-1} \mathbf{\Lambda}_{k}^{-1}-2 \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\beta_{k}^{-1} \mathbf{I}+\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}-2 \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{D \cdot \beta_{k}^{-1}+\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\mathbb{E}_{\mathbf{\Lambda}_{k}}\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\operatorname{Tr}\left[\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\mathbf{\Lambda}_{k}\right] \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\
&=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\operatorname{Tr}\left[\nu_{k}\mathbf{W}_{k} \left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \quad (\because (B.80))\\
&=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k} \left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\
&=\sum_{k=1}^{K}\left\{\frac{D \beta_{0}}{\beta_{k}}+\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\}
\end{aligned}
(**)について、
\begin{aligned}
\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] &=\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \cdot \mathbb{E}_{\mathbf{\Lambda}_{k}}[\mathbf{\Lambda}_{k}]\right] \\
&=\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \cdot \nu_{k} \mathbf{W}_{k}\right]\quad (\because (B .80)) \\
&=\nu_{k} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right]
\end{aligned}
以上で(10.74)が示された。
\begin{aligned} \mathbb{E}\left[\ln q^{\star}(\mathbf{Z})\right] &=\mathbb{E}_{\mathbf{Z}}\left[\ln \left(\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}\right)\right] \quad(\because(10.48)) \\
&=\mathbb{E}_{\mathbf{Z}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln r_{n k}\right] \\
&=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{Z}}\left[\mathbf{Z}_{n k}\right] \mathbb{E}_{z}\left[\ln r_{n k}\right] \\
&=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}
\end{aligned}
\begin{aligned} \mathbb{E}\left[\ln q^{\star}(\pi)\right] &=\mathbb{E}_{\pi}[\ln (\operatorname{Dir}(\boldsymbol{\pi} \mid \boldsymbol{\alpha}))] \quad(\because(10.57)) \\
&=\mathbb{E}_{\pi}\left[\ln C(\boldsymbol{\alpha}) \prod_{k=1}^{K} \pi_{k}^{\alpha_{k}-1}\right](\because(B. 16)) \\
&=\mathbb{E}_{\pi}[\ln C(\boldsymbol{\alpha})]+\mathbb{E}_{\pi}\left[\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \pi_{k}\right] \\
&=\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k}+\ln C(\boldsymbol{\alpha}) \end{aligned}
\begin{aligned} \mathbb{E}\left[\ln q^{\star}(\boldsymbol{\mu}, \mathbf{\Lambda})\right]
&=\mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \left[\prod_{k=1}^{K} q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)\right]\right] \quad(\because(10.55)) \\
&=\mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\sum_{k=1}^{K} \ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)\right] \\
& =\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right]+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right)\right] \\
&= \sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{-\frac{D}{2} \ln 2 \pi+\frac{D}{2} \ln \beta_{k}+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\left(\beta_{k} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\right\} \\
&+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \mathbf{\Lambda}_{k}\right]\right\} \\
&= \sum_{k=1}^{K} \left\{ \frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k} \left[ \ln \left|\mathbf{\Lambda}_{k}\right| \right] + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{1}{2} \operatorname{Tr}\left[\left(\beta_{k} \mathbf{\Lambda}_{k}\right)\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right] \right\} \\
&+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \nu_{k} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \mathbf{W}_{k}\right]\right\} \quad (\because 先述の(**)を利用) \\
&= \sum_{k=1}^{K} \left\{ \frac{1}{2} \ln \tilde{\Lambda}_{k} + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{D}{2} \right\} +\sum_{k=1}^{K} \left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \mathbb{E}_{\mathbf{\Lambda}_k}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\nu_{k} D}{2}\right\} \\
\end{aligned}
途中でMatrix Cookbook (380)の公式
\mathbb{E}_{\mathbf{x} \sim \mathcal{N}(\mathbf{x}\mid \mathbf{m}, \mathbf{\Sigma})}\left[\left(\mathbf{x}-\mathbf{m}^{\prime}\right)^{\mathrm T} \mathbf{A}\left(\mathbf{x}-\mathbf{m}^{\prime}\right)\right]=\left(\mathbf{m}-\mathbf{m}^{\prime}\right)^{\mathrm T} \mathbf{A}\left(\mathbf{m}-\mathbf{m}^{\prime}\right)+\operatorname{Tr}(\mathbf{A} \mathbf{\Sigma})
を用いた。
(\textrm{B}.82)からウィシャート分布\mathcal{W}(\mathbf{\Lambda} \mid \mathbf{W}, \nu)のエントロピーは
-\ln B(\mathbf{W}, \nu)-\frac{(\nu-D-1)}{2} \mathbb{E}[\ln |\mathbf{\Lambda}|]+\frac{\nu D}{2} \tag{B.82}
であり、これを教科書P.196では\mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]とおいているので、
\mathbb{E}\left[\ln q^{\star}(\boldsymbol{\mu}, \mathbf{\Lambda})\right] =
\sum_{k=1}^{K} \left\{ \frac{1}{2} \ln \tilde{\Lambda}_{k} + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{D}{2} - \mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]\right\} \tag{10.77}
となり(10.77)を得た。
Discussion