🧠

PRML 第10章（10.18から10.27まで）解答例

2022/05/15に公開

PRML

idea

はじめに

PRML解答例まとめを参照

演習 10.18

この演習問題では，ガウス混合モデルでの変分ベイズ法の再推定を行う方程式を，下界を直接微分することで導出する．これを行うため，変分事後分布が

q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q(\mathbf{Z}) q(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda}) \tag{10.42}

と

q(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q(\boldsymbol{\pi}) \prod_{k=1}^{K} q\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \tag{10.55}

で定義されるように分解され，各因子が

q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}} \tag{10.48}

q^{\star}(\boldsymbol{\pi})=\operatorname{Dir}(\boldsymbol{\pi} \mid \boldsymbol{\alpha}) \tag{10.57}

q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}

で与えられることを仮定する．これらを

\begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}

に代入し，下界を変分事後分布の持つパラメータの関数として与えよ．次にこの下界をパラメータに関して最大化することで，変分事後分布の因子を再推定する方程式を導出しこれらが10.2.1節で得たものと一致することを示せ．

※やろうとすることは変分ベイズ法の再推定式 $(10.58)$ とか $(10.60)-(10.63)$ を変分下界 $(10.70)$ を用いることでも求められるということを示せばいい……のだが非常に計算が多い。

各因子が $(10.48),(10.57),(10.59)$ のように表せる場合、10.2.2節で得た $(10.71)-(10.77)$ の変分下界をまず $\mathcal{L}$ に代入すると

\begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &=\frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{\ln \widetilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)\right. \\ &-\left.\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \\ &+\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \widetilde{\pi}_{k} + \ln C\left(\boldsymbol{\alpha}_{0}\right)+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \widetilde{\pi}_{k} \\ &+ \frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\beta_{0} / 2 \pi\right)+\ln \widetilde{\Lambda}_{k}-\frac{D \beta_{0}}{\beta_{k}}-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) +\frac{\left(\nu_{0}-D-1\right)}{2} \sum_{k=1}^{K} \ln \widetilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} - \sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k} - \ln C(\boldsymbol{\alpha}) \\ &-\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \widetilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}-\mathrm{H}\left[q\left(\boldsymbol{\Lambda}_{k}\right)\right]\right\} \end{aligned}

$\mathcal{L}$ を整理する。 $\ln\widetilde{\Lambda}_k$ , $\ln\widetilde{\pi}_k$ , $\beta_k$ , $\nu_k$ の項に分ける。

\begin{aligned} \mathcal{L}=&\ \frac{1}{2} \sum_{k=1}^K N_{k}\left\{\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \\ &+\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \tilde{\pi}_{k}+\ln C\left(\boldsymbol{\alpha}_{0}\right)+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \tilde{\pi}_{k} \\ &+\frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\frac{\beta_{0}}{2 \pi}\right)+\ln \tilde{\Lambda}_{k}-\frac{D \beta_0}{\beta_{k}}-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}-\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \widetilde{\pi}_{k}-\ln C(\boldsymbol{\alpha}) \\ &-\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \tilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}+\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \tilde{\Lambda}_{k}-\frac{\nu_{k} D}{2}\right\} \\ =&\ \frac{1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}\left\{N_{k}+1+\left(\nu_{0}-D-1\right)-1-\left(\nu_{k}-D-1\right)\right\} \\ &+\sum_{k=1}^{K} \ln \tilde{\pi}_{k}\left\{\sum_{n=1}^{N} r_{n k}+\left(\alpha_{0}-1\right)-\left(\alpha_{k}-1\right)\right\} \\ &+\frac{1}{2} \sum_{k=1}^{K}\left\{\beta_{k}^{-1}\left(-N_{k} D-D \beta_{0}\right)-D \ln \left(\frac{\beta_{k}}{2 \pi}\right)\right\} \\ &+\frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &+\frac{1}{2} \sum_{k=1}^{K}\left\{-\nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)-\frac{\nu_{k} D}{2}\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} D \ln (2 \pi)+\ln C\left(\boldsymbol{\alpha}_{0}\right)+\frac{1}{2} \sum_{k=1}^{K} D \ln \left(\frac{\beta_{0}}{2 \pi}\right)+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}-\ln C(\boldsymbol{\alpha})-\sum_{k=1}^{K}\left(-\frac{D}{2}\right) \\ =&\ \frac{1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &+\sum_{k=1}^{K} \ln \tilde{\pi}_{k}\left(N_{k}+\alpha_{0}-\alpha_{k}\right) \\ &-\frac{D}{2} \sum_{k=1}^{K}\left\{\beta_{k}^{-1}\left(N_{k}+\beta_{0}\right)+\ln \left(\frac{\beta_{k}}{2 \pi}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)-\frac{\nu_{k} D}{2}\right\} \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}-\ln C(\boldsymbol{\alpha}) \\ &-\frac{1}{2} N D \ln (2 \pi)+\ln C\left(\boldsymbol{\alpha}_{0}\right)+\frac{1}{2} K D \ln \left(\frac{B_{0}}{2 \pi}\right)+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{D K}{2} \end{aligned}

$\mathcal{L}$ の停留条件からパラメータの更新式を得る。パラメータはEステップで決めるパラメータ $r_{nk}$ とMステップで決める $\alpha_k, \beta_k, \mathbf{m}_k, \mathbf{W}_k,\nu_{k}$ 。

$\alpha_k$ について、 $\mathcal{L}$ の $\alpha_k$ についての停留条件から更新式 $(10.58)$ を得ることを示す。

\begin{aligned} \frac{\partial \alpha}{\partial \alpha_{k}} &=\frac{\partial}{\partial \alpha_{k}}\left\{\sum_{k=1}^{K} \ln \tilde{\pi}_{k}\left(N_{k}+\alpha_{0}-\alpha_{t}\right)-\ln C(\boldsymbol{\alpha})\right\} \\ &=\frac{\partial}{\partial \alpha_{k}}\left\{\sum_{k=1}^{K}(\underbrace{\psi\left(\alpha_{k}\right)-\psi(\hat{\alpha})}_{(10.66)})\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\underbrace{\ln \Gamma(\hat{\alpha})+\sum_{k=1}^{K} \ln \Gamma\left(\alpha_{k}\right)}_{(B .23)}\right\} \end{aligned}

$(B.24)$ にあるように、 $\displaystyle \widehat{\alpha} = \sum_{k=1}^{K}\alpha_k$ である。 $\displaystyle \frac{\partial \mathcal{L}}{\partial \alpha_k}=0$ のとき

\begin{aligned} 0 =&\ \left\{\frac{\partial}{\partial \alpha_{k}} \psi\left(\alpha_{k}\right)\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\psi\left(\alpha_{k}\right)-\frac{\partial \hat{\alpha}}{\partial \alpha_{k}} \frac{\partial \psi(\hat{\alpha})}{\partial \hat{\alpha}}\left(N_{k}+\alpha_{0}-\alpha_{k}\right)+\psi(\hat{\alpha})\right\} \\ &-\frac{\partial \hat{\alpha}}{\partial \alpha_{k}} \frac{\partial}{\partial \hat{\alpha}} \ln \Gamma(\hat{\alpha})+\frac{\partial}{\partial \alpha_{k}} \ln \Gamma\left(\alpha_{k}\right) \\ =&\ \frac{\partial \psi\left(\alpha_{k}\right)}{\partial \alpha_{k}}\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\frac{\partial \psi(\hat{\alpha})}{\partial \hat{\alpha}}\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\psi\left(\alpha_{k}\right)+\psi(\hat{\alpha}) \\ &-\psi(\hat{\alpha})+\psi\left(\alpha_{k}\right) \\ =&\ \left(N_{k}+\alpha_{0}-\alpha_{k}\right)\left(\frac{\partial \psi\left(\alpha_{k}\right)}{\partial \alpha_{k}}-\frac{\partial \psi(\hat{\alpha})}{\partial \hat{\alpha}}\right) \end{aligned}

よって停留条件は $N_k+\alpha_0-\alpha_k = 0$ 、すなわち

\alpha_k = \alpha_0 + N_k \tag{10.58}

である。

$\beta_{k}$ について停留条件を求める。

\begin{aligned} \frac{\partial \mathcal{L}}{\partial \beta_{k}} &=-\frac{D}{2} \frac{\partial}{\partial \beta_{k}}\left\{\beta_{k}^{-1}\left(N_{k}+\beta_{0}\right)+\ln \beta_{k}-\ln (2 \pi)\right\} \\ &=-\frac{D}{2}\left(-\frac{N_{k}+\beta_{0}}{\beta_{k}^{2}}+\frac{1}{\beta_{k}}\right) \\ &=\frac{D}{2 \beta_{k}^{2}}\left(N_{k}+\beta_{0}-\beta_{k}\right)=0 \end{aligned}

以上から

\beta_{k} =\beta_{0} +N_{k} \tag{10.60}

のとき停留する。

$\mathbf{m}_{k}$ について停留条件を求める。

\begin{aligned} \frac{\partial \mathcal{L}}{\partial \mathbf{m}_{k}} =&\ \frac{\partial}{\partial \mathbf{m}_{k}}\left\{-\frac{1}{2} N_{k} \nu_{k}\left(\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right)\right.\\ &\left.-\frac{1}{2} \nu_{k} \beta_{0}\left(\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right)\right\} \\ =&\ N_{k} \nu_{k} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-\nu_{k} \beta_{0} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right) \\ =&\ \nu_{k} \mathbf{W}_{k}\left\{N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}-\left(N_{k}+\beta_{0}\right) \mathbf{m}_{k}\right\}=0 \end{aligned}

以上から

\mathbf{m}_{k}=\frac{N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}}{N_{k}+\beta_{0}}=\frac{N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}}{\beta_{k}} \tag{10.61}

のとき停留する。

$\nu_k$ について、

\begin{aligned} \mathcal{L}=&\ \frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K} \left\{ \ln B\left(\mathbf{W}_{k}, \nu_{k}\right) - \frac{\nu_{k}D}{2} \right\}+\text {const.} \\ =&\ \frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K} \left\{ \ln |\mathbf{W}_{k}|^{-\nu_{k} / 2} - \ln \left(2^{\frac{\nu_{k} D}{2}} \pi^{D(D-1) / 4} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)\right) - \frac{\nu_{k}D}{2}\right\}+\text {const.} \end{aligned}

停留条件は

\begin{aligned} \frac{\partial \mathcal{L}}{\partial \nu_{k}}=&\ \frac{1}{2}\left\{\sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2}\left\{\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\} \\ &-\frac{1}{2} N_{k}\left(\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right) \\ &-\frac{1}{2}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\left\{-\frac{1}{2} \ln \left|\mathbf{W}_{k}\right|-\frac{D}{2} \ln 2-\sum_{i=1}^{D} \underbrace{\frac{1}{2} \psi\left(\frac{\nu_{k}+1-i}{2}\right)}_{(B .25)}\right\}+\frac{D}{2} \\ =&\ \frac{1}{2} \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} N_{k}\left(\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right) \\ &-\frac{1}{2}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\}+\frac{D}{2} \end{aligned}

$\displaystyle \frac{\partial \mathcal{L}}{\partial \nu_{k}} = 0$ は

\begin{aligned} & \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\operatorname{Tr}\left\{\left(N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}+\mathbf{W}_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}\right) \mathbf{W}_{k}\right\} \\ &+D=0\end{aligned}

のときに成立する。よってこれを簡単にしていく。 $\operatorname{Tr}()$ の中について

\begin{aligned} & N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}+\mathbf{W}_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ =&\ N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k} \overline{\mathbf{x}}_{k} \mathbf{m}_{k}^{\mathrm{T}}-N_{k} \mathbf{m}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}+N_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm{T}}+w_{0}^{-1}+\beta_{0} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm{T}}-\beta_{0} \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm{T}}-\beta_{0} \mathbf{m}_{0} \mathbf{m}_{k}^{\mathrm{T}}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right) \mathbf{m}_{k}^{\mathrm{T}}-\mathbf{m}_{k}\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right)^{\mathrm{T}}+\left(N_{k}+\beta_{0}\right) \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm{T}}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}\\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\frac{1}{N_{k}+\beta_{0}}\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right)\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right)^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \left(\because \mathbf{m}_{k}=\frac{1}{N_{k}+\beta_{0}}\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right) \right) \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{1}{N_{k}+\beta_{0}}\left\{\left(N_{k}+\beta_{0}\right) N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k}^{2} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k} \beta_{0} \overline{\mathbf{x}}_{k} \mathbf{m}_{0}^{\mathrm{T}}-\beta_{0} N_{k} \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\beta_{0}^{2} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}+\left(N_{k}+\beta_{0}\right) \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}\right\} \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{N_{k} \beta_{0}}{N_{k}+\beta_{0}}\left(\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\overline{\mathbf{x}}_{k} \mathbf{m}_{0}^{\mathrm{T}}-\mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm{T}}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}\right) \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{N_{k} \beta_{0}}{N_{k}+\beta_{0}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ =&\ \frac{N_{k}+\nu_{0}}{\nu_{k}}\mathbf{W}_{k}^{-1} \end{aligned}

これより停留条件を書き直すと

\begin{aligned} \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) - \operatorname{Tr}\left\{ \frac{N_{k}+\nu_{0}}{\nu_{k}}\mathbf{W}_{k}^{-1}\mathbf{W}_{k} \right\} + D = 0 \\ \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) - \frac{N_{k}+\nu_{0}}{\nu_{k}} D + D = 0 \\ \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) - \frac{D}{\nu_{k}}\left( N_{k} + \nu_{0} - \nu_{k} \right) = 0 \\ \end{aligned}

以上から

\nu_{k} = \nu_{0} + N_{k} \tag{10.63}

のとき停留する。

$\mathbf{W}_k$ について、

\ln \widetilde{\Lambda}_{k} \equiv \mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]=\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right| \tag{10.65}

を用いて計算する

\begin{aligned} \mathcal{L}=&\ \frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K} \ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\text {const.} \end{aligned}

停留条件は、 $\mathbf{S}_{k}^{\mathrm T} = \mathbf{S}_{k}, \mathbf{W}_{k}^{\mathrm T} = \mathbf{W}_{k}$ である（対称行列）ことに注意して

\begin{aligned} \frac{\partial \mathcal{L}}{\partial \mathbf{W}_{k}} =&\ \frac{1}{2} \underbrace{\mathbf{W}_{k}^{-1}}_{(C.28)} \left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} N_{k} \nu_{k}\left\{\mathbf{S}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right\} \\ &-\frac{1}{2} \nu_{k}\left\{\mathbf{W}_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}\right\} \\ &+\frac{\nu_{k}}{2}\mathbf{W}_{k}^{-1} \\ =&\ 0 \end{aligned}

これより

\begin{aligned} &\ \mathbf{W}_{k}^{-1}\left(N_{k}+\nu_{0}\right)-N_{k} \nu_{k}\left\{\mathbf{S}_{k} +\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\right\} \\ &-\nu_{k}\left\{w_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right\} = 0 \end{aligned}

\begin{aligned} \therefore \mathbf{W}_{k}^{-1} &=\frac{\nu_{k}}{N_{k}+\nu_{0}} \mathbf{W}_{0}^{-1}+\frac{N_{k} \nu_{k}}{N_{k}+\nu_{0}} \mathbf{S}_{k}+\frac{N_{k} \nu_{k}}{N_{k}+\nu_{0}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\frac{\nu_{k} \beta_{0}}{N_{k}+\nu_{0}}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \\ &=\frac{\nu_{k}}{N_{k}+\nu_{0}}\left\{\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right\} \\ &=\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\ (\because \nu_{k}の停留条件 \nu_{k} = \nu_{0} + N_{k}) \\ &=\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}\hspace{1em}(10.62) \end{aligned}

となり、 $\mathbf{W}_{k}^{-1}$ の更新式を得た。ただし最後の変形は

\begin{aligned} &\ N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ =&\ N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k} \overline{\mathbf{x}}_{k} \frac{\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\beta_{0}+N_{k}}-\frac{\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}}{\beta_{0}+N_{k}} N_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}} \\ & +\frac{N_{k}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\left(\beta_{0}+N_{k}\right)^{2}} \\ & -\beta_{0} \mathbf{m}_{0} \frac{\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\beta_{0}+N_{k}}-\frac{\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}}{\beta_{0}+N_{k}} \beta_{0}\mathbf{m}_{0}^{\mathrm{T}}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =& \left( N_{k}-\frac{N_{k}^{2}}{\beta_{0}+N_{k}}-\frac{N_{k}^{2}}{\beta_{0}+N_{k}}+\frac{N_{k}^{3}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0} N_{k}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}} \right)\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}} \\ & +\left( -\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}}+\frac{\beta_{0} N_{k}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}^{2} N_{k}}{\left(\beta_{0}+N_{k}\right)^{2}}-\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}} \right)\overline{\mathbf{x}}_{k}\mathbf{m}_{0}^{\mathrm{T}} \\ & +\left( -\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}}+\frac{\beta_{0} N_{k}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}^{2} N_{k}}{\left(\beta_{0}+N_{k}\right)^{2}}-\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}} \right)\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm{T}} \\ & +\left( \frac{N_{k} \beta_{0}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}^{3}}{\left(\beta_{0}+N_{k}\right)^{2}}-\frac{2 \beta_{0}^{2}}{\beta_{0}+N_{k}}+\beta_{0} \right)\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =&\ \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}} - \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\overline{\mathbf{x}}_{k}\mathbf{m}_{0}^{\mathrm{T}} - \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm{T}} + \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =&\ \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \end{aligned}

を用いた。

演習 10.19

ベイズ混合ガウスモデルの変分ベイズ法における予測分布

p(\widehat{\mathrm{x}} \mid \mathbf{X}) \simeq \frac{1}{\widehat{\alpha}} \sum_{k=1}^{K} \alpha_{k} \operatorname{St}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k}, \mathbf{L}_{k}, \nu_{k}+1-D\right) \tag{10.81}

を導出せよ．

P.197の $(10.81)$ 式の導出を行うためにこの節での手順を一から踏む。

p(\mathbf{Z} \mid \pi)=\prod_{n=1}^{N} \prod_{k=1}^{K} \pi_{k}^{z_{n k}} \tag{10.37}

p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right)^{z_{n k}} \tag{10.38}

データセット $\mathbf{X}$ に対する新しい観測値 $\mathbf{\hat{x}}$ の予測分布についてこれに対応する潜在分布 $\mathbf{\hat{z}}$ が存在し、よって予測分布はしたがって以下で与えられる（純粋なベイズの定理・周辺化を用いた）。

p(\widehat{\mathbf{x}} \mid \mathbf{X})=\sum_{\widehat{\mathbf{z}}} \iiint p(\widehat{\mathbf{x}} \mid \widehat{\mathbf{z}}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\widehat{\mathbf{z}} \mid \pi) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \tag{10.78}

$(10.37)$ と $(10.38)$ を代入して、

p(\widehat{\mathbf{x}} \mid \mathbf{X})=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \tag{10.79}

となる。真の事後分布 $p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X})$ を変分近似で置き換える。このとき

q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=q(\boldsymbol{\pi}) \prod_{j=1}^{K} q\left(\boldsymbol{\mu}_{j}, \boldsymbol{\Lambda}_{j}\right) \tag{10.55}

を用いて、和 $\displaystyle \sum_{k=1}^{K}$ のうち1つの項に注目する（＝ $k$ を固定する）。 $j\neq k$ であるような $j$ についての $\displaystyle \int d\mu_{j}\int d\Lambda_{j}$ を考えると、積分の中身は $\displaystyle \int q(\boldsymbol{\mu}_{j}, \boldsymbol{\Lambda}_{j})d\boldsymbol{\mu}_{j}d\boldsymbol{\Lambda}_{j} = 1$ （確率の定義より）となるので、 $k$ 番目の積分 $\displaystyle \int d\mu_{k}\int d\Lambda_{k}$ しか残らない。これより

\begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X}) &=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \\ &\simeq \sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \boldsymbol{\Lambda}_{k} \\ &=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \underbrace{\operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha})}_{(10.57)} \underbrace{\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} \mid \mathbf{W}_{k}, \boldsymbol{\nu}_{k}\right)}_{(10.59)} \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ &=\sum_{k=1}^{K} \int\pi_{k} \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\pi} \int \left[ \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathrm{d} \boldsymbol{\mu}_{k} \right]\mathcal{W}\left(\boldsymbol{\Lambda}_{k} \mid \mathbf{W}_{k}, \boldsymbol{\nu}_{k}\right) \mathrm{d} \boldsymbol{\Lambda}_{k} \cdots (\textrm{A})\\ \end{aligned}

$\boldsymbol{\pi}$ の積分に関係するのは $\pi_{k}\operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha})$ のみで、 $\int\pi_{k} \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\pi}$ はディリクレ分布以下での $\pi_{k}$ の期待値であるから

\int\pi_{k} \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\pi} = \frac{\alpha_{k}}{\widehat{\alpha}}\ (\because{(B.17)})

次に $\displaystyle \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathrm{d} \boldsymbol{\mu}_{k}$ について、これを

\begin{aligned} p\left(\boldsymbol{\mu}_{k}\right)&=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \\ p\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}\right)&=\mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \end{aligned}

とみなして $(2.115)$ の公式を用いると

\begin{aligned} & \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) d \boldsymbol{\mu}_{k} \\ =&\ \mathcal{N}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k},\left(\boldsymbol{\Lambda}_{k}^{-1}+\beta_{k}^{-1} \boldsymbol{\Lambda}_{k}^{-1}\right)\right) \\ =&\ \mathcal{N}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k},\left(1+\beta_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}^{-1}\right) \end{aligned}

となる。以上から $(\textrm{A})$ 式に戻ると

\begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X})\simeq & \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k},\left(1+\beta_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \frac{1}{(2 \pi)^{D / 2}} \frac{\left|\boldsymbol{\Lambda}_{k}\right|^{1 / 2}}{\left(1+\beta_{k}^{-1}\right)^{D / 2}} \exp \left\{-\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)}{2\left(1+\beta_{k}^{-1}\right)}\right\} \\ & B\left(\mathbf{W}_{k}, \nu_{k}\right)\left|\boldsymbol{\Lambda}_{k}\right|^{\left(\nu_{k}-D-1\right) / 2} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{(2 \pi)^{D / 2}} \frac{\left|\boldsymbol{\Lambda}_{k}\right|^{\left((\nu_{k}+1)-D-1\right) / 2}}{\left(1+\beta_{k}^{-1}\right)^{D / 2}} \exp \left\{-\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)}{2\left(1+\beta_{k}^{-1}\right)}\right\} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{(2 \pi)^{D / 2}} \frac{\left|\boldsymbol{\Lambda}_{k}\right|^{\left((\nu_{k}+1)-D-1\right) / 2}}{\left(1+\beta_{k}^{-1}\right)^{D / 2}} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\left(\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}}{1+\beta_{k}^{-1}}+\mathbf{W}_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{(2 \pi)^{D / 2} \left(1+\beta_{k}^{-1}\right)^{D / 2}} \int \left|\boldsymbol{\Lambda}_{k}\right|^{\left((\nu_{k}+1)-D-1\right) / 2} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\left(\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}}{1+\beta_{k}^{-1}}+\mathbf{W}_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \end{aligned}

ここで、 $\int$ の中身は

\begin{aligned} \mathbf{W^{\prime}}_{k}^{-1} &=\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} + \mathbf{W}_{k}^{-1} \\ {\nu^{\prime}}_{k} &= \nu_{k}+1 \end{aligned}

としたときのウィシャート分布 $\mathcal{W}(\boldsymbol{\Lambda}_{k}\mid \mathbf{W^{\prime}}_{k}, {\nu^{\prime}}_{k})$ となっているので、この積分結果は正規化定数である $B(\mathbf{W^{\prime}}_{k}, {\nu^{\prime}}_{k})$ の逆数になることがわかる。すなわち

p(\widehat{\mathbf{x}} \mid \mathbf{X}) \simeq \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{1}{(2 \pi)^{D / 2} \left(1+\beta_{k}^{-1}\right)^{D / 2}}\frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{B(\mathbf{W^{\prime}}_{k}, {\nu^{\prime}}_{k})} \tag{B}

となる。この正規化定数部分をさらに展開していく。

\begin{aligned} \frac{B(\mathbf{W}_k,\nu_k)}{B(\mathbf{W^{\prime}}_{k},\nu_k+1)} &=\frac{\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}\left(2^{\frac{\nu_{k} D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)\right)^{-1}}{\left|\mathbf{W}^{\prime}_{k}\right|^{-\frac{\nu_{k}+1}{2}}\left(2^{\frac{\left(\nu_{k}+1\right) D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+2-i}{2}\right)\right)^{-1}} ~~~(\because\ (B.79)) \\ &=\frac{\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}}{\left|\mathbf{W}^{\prime}_{k}\right|^{-\frac{\nu_{k}+1}{2}}} 2^{\frac{D}{2}} \frac{\prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+2-i}{2}\right)}{\prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)} \\ &=2^{D/2}\frac{\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}}{\left|\left\{\mathbf{W}_{k}^{-1}+\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right\}^{-1}\right|^{-\frac{\nu_{k}}{2}}} \\ &~~~~\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right) \Gamma\left(\frac{\nu k}{2}\right) \Gamma\left(\frac{\nu_{k}-1}{2}\right) \cdots \Gamma\left(\frac{\nu_{k}+2-D}{2}\right)}{\Gamma\left(\frac{\nu k}{2}\right) \Gamma\left(\frac{\nu_{k}-1}{2}\right) \cdots \Gamma\left(\frac{\nu_{k}+2-D}{2}\right) \Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}\left|\mathbf{W}_{k}^{-1}\left\{\mathbf{I}+\mathbf{W}_{k}\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right\}\right|^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{1/2}\left|\mathbf{I}+\mathbf{W}_{k}\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right|^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{1/2}\left[1+\left\{\mathbf{W}_{k}\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{\mathrm{T}}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right]^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} ~~ (\because (\textrm{C}.15))\\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{1/2}\left\{1+\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)}~~ (\because \mathbf{W}_{k}^{\mathrm T} = \mathbf{W}_{k}) \end{aligned}

これを $(\textrm{B})$ に代入して

\begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X}) &\simeq \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)}\frac{\left|\mathbf{W}_{k}\right|^{1/2}}{\pi^{D / 2} \left(1+\beta_{k}^{-1}\right)^{D / 2}}\left\{1+\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{-\frac{\nu_{k}+1}{2}} \\ &= \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{\Gamma\left(\frac{\nu_{k}+1-D}{2} + \frac{D}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \frac{\left|\frac{\nu_{k}+1-D}{1+\beta_{k}^{-1}}\mathbf{W}_{k}\right|^{1/2}}{\pi^{D / 2} \left(\nu_{k}+1-D\right)^{D / 2}} \\ &~~~~\left\{1+\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \left( \frac{1}{\nu_{k}+1-D}\frac{\nu_{k}+1-D}{1+\beta_{k}^{-1}}\mathbf{W}_{k} \right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{-\frac{\nu_{k}+1-D}{2} - \frac{D}{2}} \\ &= \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{\Gamma\left(\frac{\nu_{k}+1-D}{2} + \frac{D}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \frac{\left|\mathbf{L}_{k}\right|^{1/2}}{\left\{\pi (\nu_{k}+1-D)\right\}^{D/2}}\left( 1 + \frac{\Delta^{2}}{\nu_{k}+1-D}\right)^{-\frac{\nu_{k}+1-D}{2} - \frac{D}{2}} \\ &= \frac{1}{\widehat{\alpha}}\sum_{k=1}^{K}\alpha_{k}\operatorname{St} \left( \widehat{\mathbf{x}} \mid \mathbf{m}_{k}, \mathbf{L}_{k}, \nu_{k}+1-D \right) ~~ (\because (\textrm{B}.68)) \end{aligned}

となる。ここで、

\mathbf{L}_{k} =\frac{\nu_{k}+1-D}{1+\beta_{k}^{-1}} \mathbf{W}_{k} = \frac{(\nu_{k}+1-D)\beta_{k}}{(1+\beta_{k})} \mathbf{W}_{k} \tag{10.82}

\Delta^{2} =\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{L}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)

とした。これより $(10.81)$ を得た。

演習 10.20

この演習問題では，データ集合のサイズ $N$ が大きくなった場合の混合ガウスモデルの変分ベイズ法による解を考え，これが(期待通り)9章のEMアルゴリズムに基づく最尤推定の解に近づくことを示す．この演習問題を解くには，付録Bの結果が有用であろう．最初に，精度の事後分布 $q^{\star}(\mathbf{\Lambda}_k)$ が最尤推定値の周囲に鋭い分布を持つことを示せ．平均の事後分布 $q^{\star}(\boldsymbol{\mu}_k \mid \mathbf{\Lambda}_k)$ についても同様のことを示せ．次に，混合比の事後分布 $q^{\star}(\boldsymbol{\pi})$ について考え，これも最尤推定値の周囲に鋭く分布することを示せ．同様に，大きな $N$ については負担率は対応する最尤推定値と等しくなることを，大きな $x$ についてのディガンマ関数の次の漸近的な結果

\psi(x)=\ln x+O(1 / x)

を利用して示せ．最後に

p(\widehat{\mathbf{x}} \mid \mathbf{X}) \simeq \sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \mathbf{\Lambda}_{k} \tag{10.80}

を用いて，大きな $N$ については予測分布は混合ガウス分布になることを示せ．

(10.59)式の導出を考えると、(演習10.13より)

q^{\star}\left(\mathbf{\Lambda}_{k}\right)=\mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right)\\ q^{\star}\left(\boldsymbol{\mu}_{k} \mid \boldsymbol{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k}, \beta_{k} \boldsymbol{\Lambda}_{k}\right)

となる。
これらの分布について、 $N \rightarrow \infty$ のとき、
$N_{k} \rightarrow \infty$ であり、
(10.60)~(10.63)式より、

\beta_{k} \rightarrow N_{k}\\ \mathbf{m}_{k} \rightarrow \overline{\mathrm{x}}_{k}\\ \mathbf{W}_{k} \rightarrow N_{k}^{-1} \mathbf{S}_{k}^{-1}\\ \nu_{k} \rightarrow N_{k}

である。

これらと(B.79)~(B.81)式より,

\mathrm{E}\left[\boldsymbol{\Lambda}_{k}\right]=\nu_{k} \mathbf{W}_{k} \rightarrow \mathbf{S}_{k}^{-1}

\begin{aligned} -\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)&=-\ln (|\mathbf{W}_{k}|^{-\nu_{k} / 2}\left(2^{\nu_{k} D / 2} \pi^{D(D-1) / 4} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)\right)^{-1})\\ &\rightarrow-\frac{N_{k}}{2}\left(D \ln N_{k}+\ln \left|\mathbf{S}_{k}\right|-D \ln 2\right)+\sum_{i=1}^{D} \ln \Gamma\left(\frac{N_{k}+1-i}{2}\right)\\ &\rightarrow-\frac{N_{k}}{2}\left(D \ln N_{k}+\ln \left|\mathbf{S}_{k}\right|-D \ln 2\right)+\sum_{i=1}^{D} \frac{N_{k}}{2}\left(\ln N_{k}-\ln 2-1\right)~~ (\because (\textrm1.146))\\ & \rightarrow-\frac{N_{k} D}{2}\left(\ln N_{k}-\ln 2-\ln N_{k}+\ln 2+1\right)-\frac{N_{k}}{2} \ln \left|\mathbf{S}_{k}\right| \\ &=-\frac{N_{k}}{2}\left(\ln \left|\mathbf{S}_{k}\right|+D\right) \end{aligned}

\begin{aligned} \mathbb{E}[\ln |\boldsymbol{\Lambda}_{k}|] &=\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln |\mathbf{W}_{k}|\\ & \rightarrow D \ln \frac{N_{k}}{2}+D \ln 2-D \ln N_{k}-\ln \left|\mathbf{S}_{k}\right| \\ &=-\ln \left|\mathbf{S}_{k}\right| \end{aligned}

ただし、 $\psi(\cdot)$ は(10.241)式:

\psi(x)=\ln x+O(1 / x)

のディガンマ分布。

よって(B.82)式より

\begin{aligned} \mathrm{H}[\boldsymbol{\Lambda}_{k}]&=-\ln B(\mathbf{W}_{k}, \nu_{k})-\frac{(\nu_{k}-D-1)}{2} \mathbb{E}[\ln |\boldsymbol{\Lambda}_{k}|]+\frac{\nu_{k} D}{2}\\ & \rightarrow 0 \end{aligned}

これにより $q^{\star}\left(\boldsymbol{\Lambda}_{k}\right)$ については示された。

また、

\mathbf{m}_{k} \rightarrow \overline{\mathrm{x}}_{k}\\ \beta_{k} \mathbf{\Lambda}_{k} \rightarrow \beta_{k} \nu_{k} \mathbf{W}_{k} \rightarrow N_{k} \mathbf{S}_{k}^{-1}

より $q^{\star}\left(\boldsymbol{\mu}_{k} \mid \boldsymbol{\Lambda}_{k}\right)$ についても示された。

$q^{\star}(\pi)$ については、
(10.56),(10.57)式にある通り

q^{\star}(\pi)=\operatorname{Dir}(\pi \mid \alpha)\\ \alpha_{k}=\alpha_{0}+N_{k}

であり、 $\alpha_{k} \rightarrow N_{k}$ である。
(B.17),(B.19)式より、

\begin{aligned} \mathbb{E}\left[\pi_{k}\right]&=\frac{\alpha_{k}}{\overline{\alpha}}\\ &\rightarrow \frac{N_{k}}{N} \end{aligned}

\begin{aligned} \operatorname{cov}\left[\mu_{j} \mu_{k}\right]&=-\frac{\alpha_{j} \alpha_{k}}{\widehat{\alpha}^{2}(\widehat{\alpha}+1)}\\ &\rightarrow 0 \end{aligned}

よって $q^{\star}(\pi)$ についても示された。

最後に(10.80)式より、

\begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X}) &\simeq \sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \mathbf{\Lambda}_{k}\\ &\rightarrow \sum_{k=1}^{K} \frac{\alpha_{k}}{\bar{\alpha}} \iint \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \boldsymbol{\Lambda}_{k}\\ &\rightarrow \sum_{k=1}^{K} \frac{N_{k}}{N} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \overline{\mathbf{x}}_{k}, \mathbf{W}_{k}\right) \end{aligned}

ただし最後の行は $q^{\star}\left(\boldsymbol{\Lambda}_{k}\right)$ と $q^{\star}\left(\boldsymbol{\mu}_{k} \mid \boldsymbol{\Lambda}_{k}\right)$ が特定の位置についてのデルタ関数と近似した。

これにより示された。

演習 10.21

$K$ 個の混合要素を持つ混合モデルにおいて，混合要素の入れ替えについての対称性から得られる，同値なパラメータ設定の数は $K!$ であることを示せ．

P.197によれば

例として，一つの観測値 $x$ についての二混合のガウス混合分布を考えよう．パラメータの値は $\pi_{1} = a$ ， $\pi_{2} = b$ ， $\pi_{3} = c$ ， $\pi_{4} = d$ ， $\pi_{5} = e$ ， $\pi_{6} = f$ とする．このとき，二つの混合要素を入れ替えた別の設定 $\pi_{1} = b$ ， $\pi_{2} = a$ ， $\pi_{3} = d$ ， $\pi_{4} = c$ ， $\pi_{5} = f$ ， $\pi_{6} = e$ も，対称性から同じ $p(x)$ を与える．

とあるように、もし $K$ 個の混合要素が存在する場合は、それらを入れ替えることで同値なパラメータ設定が可能なので、一般に $K!$ 個存在することは明らかである。

演習 10.22

これまでにガウス混合モデルの事後分布の持つそれぞれの峰は， $K!$ 個ある同値な峰の一つであることを見てきた．変分ベイズ推論のアルゴリズムを実行した結果，近似事後分布 $q$ がどれかの峰の周りに局所化して得られたとしよう．このとき，完全な事後分布はこうした分布 $q$ の $K!$ 個の混合分布となり，各混合要素が峰となって同じ混合係数を持つ．この混合分布 $q$ の混合要素の間の重なりが無視できる程度だと仮定すると，結果として得られる全体の下界は， $q$ の一つの混合要素の下界に項 $\ln K!$ を加えたものになることを示せ．

今、p166並びに、演習9.24より

\begin{aligned} \ln p(\mathbf{X}) = L(q) + KL(q||p) \end{aligned}

が成り立つ。

この時、 $KL(q||p)$ はKLダイバージェンスであり、1.6.1の議論から、 $KL(q||p) \geq 0$ である。よって、 $\ln p(\mathbf{X}) \geq L(q)$ であり、 $L(q)$ は、 $\ln p(\mathbf{X})$ の下界である。よって、本題は、求めたい真の分布を $p(\mathbf{Z}|\mathbf{X})$ として、 $L(p(\mathbf{Z}|\mathbf{X}))$ を求めれば良い。

まず、各峰は、pの真の各峰を $r_i$ $(i \in \{1, 2... K!\})$ とおくと、pは単純に各 $r_i$ の平均で表すことができる。

\begin{aligned} p(\mathbf{Z}|\mathbf{X}) \simeq \sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X}) \end{aligned}

また、各峰の重なりが無視できるという仮定から、 $r_k \neq 0 \rightarrow r_{i \neq k = 0}=0$ が成り立つ。

ここで、ある真の峰 $r_k$ の近似の峰をqとおく。すなわち、この問題では、 $p$ を混合要素 $r_i$ を重ね合わせたものと見なし、その近似であるqによって下界を表すことを目指す。

すると、10.3式から、

\begin{aligned} L(p(\mathbf{Z}|\mathbf{X})) &= \int p(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{p(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \int\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \frac{1}{K!} \int r_1(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \frac{1}{K!} \int r_2(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \cdots \frac{1}{K!} \int r_{K!}(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \frac{1}{K!} \int r_1(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\frac{1}{K!} r_1(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \frac{1}{K!} \int r_2(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{ \frac{1}{K!} r_2(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \cdots \frac{1}{K!} \int r_{K!}(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\frac{1}{K!} r_i{K!}\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} &\because r_k \neq 0 \rightarrow r_{i \neq k = 0}=0 \\ &= \frac{1}{K!} \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \frac{1}{K!} \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \{ \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} + \ln K!\} d\mathbf{Z} \\ &= \frac{1}{K!} \{ \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} + \ln K! \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) d\mathbf{Z}\} \\ &= \frac{1}{K!} \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} + \ln K! &\because \int r_i(\mathbf{Z}|\mathbf{X}) d\mathbf{Z} = r_i(\mathbf{X}|\mathbf{X}) = 1\\ &=\frac{1}{K!} \{ \int r_1 (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_1(\mathbf{Z}|\mathbf{X})} d\mathbf{Z}+ \int r_2 (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_2(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \}+\cdots + \int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_k(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \}+\cdots + \int r_{K!} (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_{K!}(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \}+ \ln K! \\ &=\frac{1}{K!} K! \int q(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ q(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} + \ln K! &\because r_i\text{はそれぞれ同値であり、積分は同じ。詳細は最後　}\\ &= L(q) + \ln K! &\because (10.3) \end{aligned}

今、 $L(q)$ は一つの混合要素の下界なので、題意は満たされた。

最後から2番目の式変形について、まず、自明に、 $\int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_k(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} =\int q(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ q(\mathbf{Z}|\mathbf{X})} d\mathbf{Z}$ が成り立つ。

そして、 $i \neq k$ について、

\begin{aligned} \int r_i (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} &= \int r_i (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{Z}| \mathbf{X})d\mathbf{Z} +\int r_i (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_i (\mathbf{Z}|\mathbf{X}) \ln r_i (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} \\ &= \int r_i (\mathbf{Z}|\mathbf{X}) \ln \frac{r_i(\mathbf{Z}| \mathbf{X})}{K!} d\mathbf{Z} +\int r_i (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_i (\mathbf{Z}|\mathbf{X}) \ln r_i (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} &\because r_i(\mathbf{Z} \notin \mathbf{Z}_i |\mathbf{X}) = 0\\ &= \int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{r_k(\mathbf{Z}| \mathbf{X})}{K!} d\mathbf{Z} +\int r_k (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_k (\mathbf{Z}|\mathbf{X}) \ln r_k (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} &\because r_i\text{はそれぞれ同値であり、積分は同じ}\\ &= \int r_k (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{Z}| \mathbf{X})d\mathbf{Z} +\int r_k (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_k (\mathbf{Z}|\mathbf{X}) \ln r_k (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} &\because r_k(\mathbf{Z} \notin \mathbf{Z}_k |\mathbf{X}) = 0\\ &= \int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{r_k (\mathbf{Z}|\mathbf{X})} d\mathbf{Z}\\ &= \int q(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ q(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \end{aligned}

最後は冗長かもしれないのでその時はご教示ください。

演習 10.23

混合係数 $\{ \pi_k \}$ に事前分布を与えない変分ベイズガウス混合モデルを考えよう．代わりに混合係数はパラメータとして扱い，対数周辺尤度の下界を最大化する際に値を求める．ラグランジュ乗数法を用いて，混合係数の和が $1$ になる制約条件の下でこの下界を混合係数について最大化すると，再推定式

\pi_{k}=\frac{1}{N} \sum_{n=1}^{N} r_{n k} \tag{10.83}

の結果が得られることを示せ．この際，下界のすべての項を考える必要はなく，

\{\pi_k\}

に依存する項だけを考えればよいことに注意せよ．

変分ベイズガウス混合モデルでは、下界は(10.70)式で与えられる。
本問では、混合係数 $\{ \pi_k \}$ に事前分布を与えないパラメータとして扱うため、対数周辺尤度として第２項のみを考えれば良い。つまり、

\mathscr{L} \propto \mathbb{E}[\ln p(\mathbf{Z} \mid \pi)]=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \pi_{k} \tag{10.72}

L=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \pi_{k}+\lambda \cdot\left(\sum_{k=1}^{K} \pi_{k}-1\right)

上式のLagrangianについて、 $\pi_k$ について微分し、=0とおくと、

\frac{\partial L}{\partial \pi_{k}}=\frac{\sum_{n=1}^{N}r_{nk}}{\pi_{k}}+\lambda=\frac{N_{k}}{\pi_{k}}+\lambda=0 \tag{A} (A)

\sum_{k=1}^{K} N_{k}+\lambda \sum_{k=1}^{K}\pi_{k}=0

$\sum_{k=1}^{K} N_{k}=N$ , $\sum_{k=1}^{K}\pi_{k}=1$ より、

\lambda=-N \tag{A} (A)

\pi_{k}=\frac{N_{k}}{N}=\underline{\frac{1}{N} \sum_{n=1}^{N} r_{n k}}

演習 10.24

10.2節でガウス混合モデルを最尤推定で扱う際に現れる特異性は，ベイズ的な解では現れないことを見た．こうした特異性は，ベイズモデルを最大事後機率(MAP)推定を使って解く際には現れるかどうか議論せよ．

最尤推定で現れる特異性とは、9.2.1節で議論した $\left|\boldsymbol{\Lambda}_{k}\right| \rightarrow \infty$ に発散してしまうことを意味している。ベイズモデルではこのようなことが起きないことを示す。

混合ガウス分布の事後確率は、(10.9),(10.38),(10.40),(10.50)を利用すれば以下となる。

\begin{aligned} \mathbb{E}_{q(\mathbf{Z})} &[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ =& \frac{1}{2} \sum_{n=1}^{N} r_{k n}\left(\ln \left|\boldsymbol{\Lambda}_{k}\right|-\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right) \\ &+\ln \left|\boldsymbol{\Lambda}_{k}\right|-\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) \\ &+\left(\nu_{0}-D-1\right) \ln \left|\boldsymbol{\Lambda}_{k}\right|-\operatorname{Tr}\left[\mathbf{W}_{0}{ }^{1} \boldsymbol{\Lambda}_{k}\right]+\text { const. } \end{aligned}

これを（10.51)-(10.53)を利用して $\mathbf{\Lambda}_{k}$ について整理すると（ $\mathbf{\Lambda}_{k}$ と無関係な項は無視）

\left(\nu_{0}+N_{k}-D\right) \ln \left|\boldsymbol{\Lambda}_{k}\right|-\operatorname{Tr}\left[\left(\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}+N_{k} \mathbf{S}_{k}\right) \boldsymbol{\Lambda}_{k}\right] (C.24)

\mathbf{\Lambda}_{k}^{-1}=\frac{1}{\nu_{0}+N_{k}-D}\left(\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}+N_{k} \mathbf{S}_{k}\right)

ウィシャート分布の正式より、 $\left|\boldsymbol{\Lambda}_{k}^{-1}\right|$ はゼロになることはない。

よって、ベイズモデルでは、 $\left|\boldsymbol{\Lambda}_{k}\right| \rightarrow \infty$ に発散することはないことが示された。

演習 10.25

10.2節で議論したベイズ混合ガウス分布の変分ベイス法による解では，事後分布について分解した近似

q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right) \tag{10.5}

を用いた図10.2で見たように，こうした分解の仮定はパラメータ空間で、の事後分布の特定の方向の分散を過小評価してしまう．この影響がモデルエピデンスの変分近似に及ぼす影響について質的に議論せよ．さらに，この影響が混合モデルの混合要素数に関してどう変わるか述べよ．これから，変分ガウス混合モデルが最適な混合要素数を過小評価しがちか，過大評価しがちか説明せよ．

混合成分の数が増えると、相関している可能性のある変数の数も増える一方、平均場近似の式(10.5)を用いるとそれらの相関を表現することができない(図10.2,3)。その結果、KLダイバージェンスの最小化を行うときに複数の山をつぶして近似してしまうことが考えられるため、過小評価する。

演習 10.26

ベイズ線形回帰モデルの変分ベイズ法による解法を拡張し， $\beta$ についてガンマ超事前分布 $\textrm{Gam}(\beta\mid c_0, d_0)$ を導入して，分解された変分事後分布 $q(\mathbf{w}) q(\alpha) q(\beta)$ を仮定して変分ベイズ法によって解け．変分事後分布の三つの因子の更新式を導出し，さらに下界および予測分布の式を求めよ．

$\beta$ を含めた全ての変数の同時分布は

p(\mathbf{t}, \mathbf{w}, \alpha, \beta)=p(\mathbf{t}|\mathbf{w}, \beta)p(\mathbf{w}|\alpha)p(\alpha)p(\beta)

と書くことができる．本文中の議論をなぞって， $\mathbf{w}, \alpha, \beta$ の尤度関数と事前分布を

\begin{aligned} &p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X})=\prod_{n=1}^{N} N\left(\mathbf{t}_{n} \mid \mathbf{w}^{\mathrm{T}} \phi_{n}, \beta^{-1}\right) \\ &p(\mathbf{w} \mid \alpha)=N\left(\mathbf{w} \mid 0, \alpha^{-1} \mathbf{I}\right) \\ &p(\alpha)=\operatorname{Gam}\left(\alpha \mid a_{0}, b_{0}\right) \\ &p(\beta)=\operatorname{Gam}\left(\beta \mid c_{0}, d_{0}\right) \end{aligned}

と書くことができる．

ここで変分推論の枠組みで考え，問題中の設定から変分事後分布は

q(\mathbf{w}, \alpha, \beta) = q(\mathbf{w})q(\alpha)q(\beta)

と分解できるとする．

$q(\mathbf{w}),q(\alpha),q(\beta)$ の更新式を求める．まず $q(\alpha)$ から10.1節で導出した一般的な結果(10.9)を用いて

\begin{aligned} \ln q^*(\alpha)&=\mathbb{E}_{\mathbf{w}, \beta}[\ln p(\mathbf{t}, \mathbf{w}, \alpha, \beta \mid \mathbf{X})]\\ &=\mathbb{E}_{\mathbf{w}, \beta}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X}) p(\mathbf{w} \mid \alpha) p(\alpha) p(\beta)]\\ &=\mathbb{E}_{\mathbf{w}, \beta}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X})]+\mathbb{E}_{\mathbf{w}}[\ln \beta(\mathbf{w} \mid \alpha)]+\ln p(\alpha)+\mathbb{E}_{\beta}[\ln p(\beta)]\\ &=\mathbb{E}_{\mathbf{w}}\left[\ln N\left(\mathbf{w} \mid 0, \alpha^{-1} \mathbf{I}\right)\right]+\ln \operatorname{Gam}\left(\alpha \mid a_{0}, b_{0}\right)+\textrm{const}\\ &=\mathbb{E}_{\mathbf{w}}\left[\ln \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{\left(\alpha^{-1}\right)^{\frac{1}{2}}} \operatorname{exp}\left(-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right)\right]+\ln \frac{1}{\Gamma\left(a_{0}\right)} b_{0}^{a_{0}} \alpha^{a_{0}-1} e^{-b_{0} \alpha}+ \textrm{const.}\\ &=\frac{M}{2} \ln \alpha-\frac{\alpha}{2} \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+\left(a_{0}-1\right) \ln \alpha-b_{0} \alpha+ \textrm{const.}\\ &=\left(\frac{M}{2}+a_{0}-1\right) \ln \alpha-\left(\frac{1}{2} \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+b_{0}\right) \alpha+ \textrm{const.} \end{aligned}

ここで $\beta$ を導入した場合にも $\alpha$ に依存しない項はconstに押し込んで計算することができるため，(10.92)-(10.95)式までの議論をそのまま用いることができる．

q^*(\alpha)=\operatorname{Gam}\left(\alpha \mid a_{N}, b_{N}\right) , a_N=\frac{M}{2} + a_0, b_N=\frac{1}{2}\mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+b_0

を得る．次に $q(\mathbf{w})$ について(10.9)より

\begin{aligned} \ln q^*(\mathbf{w})&=\mathbb{E}_{\alpha, \beta}[\ln \beta(\mathbf{t}, \mathbf{w}, \alpha, \beta \mid x)]\\ &=\mathbb{E}_{\alpha, \beta}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, X) p(\mathbf{w} \mid \alpha) \gamma(\alpha) p(\beta)]\\ &=\mathbb{E}_{\beta}\left[\ln \prod_{n=1}^{N} N\left(\mathbf{t}_{n} \mid \mathbf{w}^{\mathrm{T}} \phi_{n}, \beta^{-1}\right)\right]+\mathbb{E}_{\alpha}\left[\ln N\left(w \mid 0, \alpha^{-1} I\right)\right]+ \textrm{const.}\\ &=\mathbb{E}_{\beta}\left[\sum_{n=1}^N\ln \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{\left(\beta^{-1}\right)^{\frac{1}{2}}} \operatorname{exp}\left\{-\frac{\beta}{2}(\mathbf{t}_n-\mathbf{w}^{\mathrm{T}}\phi_{n})^2 \right\}\right]+\mathbb{E}_{\alpha}\left[\ln \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{\left(\alpha^{-1}\right)^{\frac{1}{2}}} \operatorname{exp}\left(-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right)\right]+ \textrm{const.}\\ &=\mathbb{E}_{\beta}\left[\beta\right]\left(\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t}-\frac{1}{2}\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{w}\right)-\frac{1}{2}\mathbb{E}_{\alpha}\left[\alpha\right]\mathbf{w}^{\mathrm{T}}\mathbf{w}+ \textrm{const.}\\ &=-\frac{1}{2}\mathbf{w}^{\mathrm{T}}\left(\mathbb{E}_{\beta}[\beta] \Phi^{\mathrm{T}} \Phi+\mathbb{E}_{\alpha}[\alpha]\mathbf{I}\right) \mathbf{w}+\mathbb{E}_{\beta}[\beta] \mathbf{w}^{\mathrm{T}} \Phi^{\mathrm{T}} \mathbf{t}+ \textrm{const.}\\ \end{aligned}

これは $\mathbf{w}$ に関して2次形式なのでガウス分布になり，平方完成すると

q^*(\mathbf{w})=\mathcal{N}(\mathbf{w}\mid \mathbf{m}_N, \mathbf{S}_N)

\mathbf{m}_N=\mathbb{E}_{\beta}[\beta]\mathbf{S}_N\mathbf{\Phi}^{\mathrm{T}}\mathbf{t}

\mathbf{S}_N=\mathbb{E}_{\alpha}[\alpha]\mathbf{I}+\mathbb{E}_{\beta}[\beta]\mathbf{\Phi}^{\mathrm{T}}\mathbf{\Phi}

を得る．最後に $q(\beta)$ について(10.9)より

\begin{aligned} \ln q^{\star}(\beta) &=\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{t}, \mathbf{w}, \alpha, \beta \mid \mathbf{X})]\\ &=\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X}) p(\mathbf{w} \mid \alpha) p(\alpha) p(\beta)]\\ &=\mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta)]+\ln p(\beta)+\text { const } \\ &= \frac{N}{2} \cdot \ln \beta-\frac{\beta}{2} \cdot \mathbb{E}\left[\sum_{n=1}^{N}\left(t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}\right)^{2}\right]+\left(c_{0}-1\right) \ln \beta-d_{0} \beta +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\frac{\beta}{2} \cdot \mathbb{E}\left[\left\|\mathbf{\Phi}_{\mathbf{w}}-\mathbf{t}\right\|^{2}\right]-d_{0} \beta +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \mathbb{E}\left[\|\mathbf{\Phi} \mathbf{w}-\mathbf{t}\|^{2}\right]+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}_{\mathbf{w}}-2 \mathbf{t}^{\mathrm{T}} \mathbf{\Phi}_{\mathbf{w}}+\mathbf{t}^{\mathrm{T}} \mathbf{t}\right]+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right]\right]-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbb{E}[\mathbf{w}]+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right]-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{S}_{N}\right]+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot \frac{1}{2}\left\{\operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{S}_{N}\right]+\left\|\mathbf{\Phi} \mathbf{m}_{N}-\mathbf{t}\right\|^{2}+2 d_{0}\right\}+\text { const } \end{aligned}

これより

q^{\star}(\beta)=\operatorname{Gam}\left(\beta \mid c_{N}, d_{N}\right)

c_N=\frac{N}{2}+c_0

d_N=d_{0}+\frac{1}{2}\left\{\operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{S}_{N}\right]+\left\|\mathbf{\Phi} \mathbf{m}_{N}-\mathbf{t}\right\|^{2}\right\}

以上から各因子の更新式が得られた．

次に変分下界を求める．変分下界は本文中の式(10.107)を $\beta$ を考慮した形に修正すれば得られ，考えるべき項は $\mathbb{E}\left[\ln p(\beta)\right], -\mathbb{E}\left[\ln q^*(\beta)\right]$ の二つであるので，それぞれの計算をして，ディガンマ関数 $\varphi(a)=\frac{d}{da}\ln\Gamma(a)$ として

\begin{aligned} \mathbb{E}[\ln p(\beta)] &=\left(c_{0}-1\right) \mathbb{E}[\ln \beta]-d_{0} \mathbb{E}[\beta]+c_{0} \ln d_{0}-\ln \Gamma\left(c_{0}\right) \\ &=\left(c_{0}-1\right) \cdot\left(\varphi\left(c_{N}\right)-\ln d_{N}\right)-d_{0} \frac{c_{N}}{d_{N}}+c_{0} \ln d_{0}-\ln \Gamma\left(c_{0}\right) \end{aligned}

ここで(B.26)(ガンマ分布の関数形についての定義式),(B.30)(ガンマ分布に従う確率変数の自然対数の期待値がディガンマ関数に紐づけられる式)をそれぞれ用いた．また

-\mathbb{E}\left[\ln q^{\star}(\beta)\right]=\left(c_{N}-1\right) \cdot \varphi\left(c_{N}\right)-c_{N}+\ln d_{N}-\ln \Gamma\left(c_{N}\right)

ここでガンマ分布に従う確率変数のエントロピーについての式(B.31)を用いた．(10.107)-(10.112)の式を修正することで $\beta$ を考慮に入れた変分下界を得る．

最後に予測分布を考える．

これも本文中の議論を $\beta$ を考慮したものに修正して得ることができて(10.105),(10.106)から

\begin{aligned} p(t \mid \mathbf{x}, \mathbf{t}) &=\int p(t \mid \mathbf{x}, \mathbf{w}) p(\mathbf{w} \mid \mathbf{t}) \mathrm{d} \mathbf{w} \\ & \simeq \int p(t \mid \mathbf{x}, \mathbf{w}) q(\mathbf{w}) \mathrm{d} \mathbf{w} \\ &=\int \mathcal{N}\left(t \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned}

ここで分散は

\sigma^{2}(\mathbf{x})=\frac{1}{\mathbb{E}\left[\beta\right]}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}(\mathbf{x})

である．

演習 10.27

付録Bで与えられている公式を用いて，線形基底関数回帰モデルの変分下界は

\begin{aligned} \mathcal{L}(q)&= \mathbb{E}[\ln p(\mathbf{w}, \alpha, \mathbf{t})]-\mathbb{E}[\ln q(\mathbf{w}, \alpha)] \\ &= \mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} \mid \mathbf{w})]+\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{w} \mid \alpha)]+\mathbb{E}_{\alpha}[\ln p(\alpha)] \\ &-\mathbb{E}_{\alpha}[\ln q(\mathbf{w})]_{\mathbf{w}}-\mathbb{E}[\ln q(\alpha)] \end{aligned} \tag{10.107}

の形で書け，その各項は

\begin{aligned} \mathbb{E}[\ln p(\mathbf{t} \mid \mathbf{w})]_{\mathbf{w}}=& \frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ &-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right] \end{aligned} \tag{10.108}

\begin{aligned} \mathbb{E}[\ln p(\mathbf{w} \mid \alpha)]_{\mathbf{w}, \alpha}=&-\frac{M}{2} \ln (2 \pi)+\frac{M}{2}\left(\psi\left(a_{N}\right)-\ln b_{N}\right) \\ &-\frac{a_{N}}{2 b_{N}}\left[\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right)\right] \end{aligned}\tag{10.109}

\begin{aligned} \mathbb{E}[\ln p(\alpha)]_{\alpha}=&\ a_{0} \ln b_{0}+\left(a_{0}-1\right)\left[\psi\left(a_{N}\right)-\ln b_{N}\right] \\ &-b_{0} \frac{a_{N}}{b_{N}}-\ln \Gamma\left(a_{0}\right) \end{aligned} \tag{10.110}

-\mathbb{E}[\ln q(\mathbf{w})]_{\mathbf{w}}=\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{M}{2}[1+\ln (2 \pi)] \tag{10.111}

-\mathbb{E}[\ln q(\alpha)]_{\alpha}=\ln \Gamma\left(a_{N}\right)-\left(a_{N}-1\right) \psi\left(a_{N}\right)-\ln b_{N}+a_{N} \tag{10.112}

となることを示せ．

※演習10.16, 10.17のように各項の確率分布に適切なものを当てはめて計算していくだけ。

\begin{aligned} \mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} \mid \mathbf{w})] &=\mathbb{E}_{\mathbf{w}}\left[\ln \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}, \beta^{-1}\right)\right]\hspace{1em}(\because(B.87))\\ &=\mathbb{E}_{\mathbf{w}}\left[\sum_{n=1}^{N} \ln \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}, \beta^{-1}\right)\right] \\ &=\mathbb{E}_{\mathbf{w}}\left[\sum_{n=1}^{N} \ln \left\{\left(\frac{\beta}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta}{2}\left(t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}\right)^{2}\right\}\right.\right.\\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbb{E}_{\mathbf{w}}\left[\sum_{n=1}^{N}\left(t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}\right)^{2}\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbb{E}_{\mathbf{w}}\left[(\mathbf{t}-\mathbf{\Phi} \mathbf{w})^{\mathrm{T}}(\mathbf{t}-\mathbf{\Phi} \mathbf{w})\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}}\right] \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\frac{\beta}{2} \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbb{E}_{\mathbf{w}}\left[\mathbf{ww}^{\mathrm{T}}\right]\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta_{m N}^{\mathrm{T}} \mathbf{\Phi} \mathbf{t}-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right] \end{aligned}

\begin{aligned} \mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{w} \mid \alpha)] &=\mathbb{E}_{\mathbf{w}, \alpha}\left[\ln \mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)\right] \\ &=\mathbb{E}_{\mathbf{w}, \alpha}\left[\ln \left\{\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} w\right\}\right]\right.\\ &=\mathbb{E}_{\mathbf{w}, \alpha}\left[\frac{M}{2} \ln \left(\frac{\alpha}{2 \pi}\right)\right]-\frac{1}{2} \mathbb{E}_{\mathbf{w}, \alpha}\left[\alpha \mathbf{w}^{\mathrm{T}} \mathbf{w}\right] \\ &=-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \mathbb{E}_{\alpha}[\ln \alpha]-\frac{\mathbb{E}_{\alpha}[\alpha]}{2} \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right] \\ &=-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \underbrace{\left(\psi\left(a_{N}\right)-\ln b_{N}\right)}_{(B.30)} - \underbrace{\frac{a_{N}}{2 b_{N}}}_{(B.27)} \mathbb{E}_{\mathbf{w}}\left[\operatorname{Tr}\left(\mathbf{w} \mathbf{w}^{\mathrm{T}}\right)\right] \\ &=-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \left(\psi\left(a_{N}\right)-\ln b_{N}\right) - \frac{a_{N}}{2 b_{N}} \left[\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right)\right] \end{aligned}

ここで $\mathbb{E}_{\mathbf{w}}\left[\operatorname{Tr}\left(\mathbf{w} \mathbf{w}^{\mathrm{T}}\right)\right]$ の変形についてはトレースと期待値の交換性と

\begin{aligned} & \operatorname{Tr}\left[\mathbb{E}_{\mathbf{w}}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right]\right] \\ = & \operatorname{Tr}\left[\operatorname{cov}[\mathbf{w}]+\mathbb{E}_{\mathbf{w}}[\mathbf{w}] \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}}\right]\right] \quad(\because(1.42)) \\ = & \operatorname{Tr}\left[\mathbf{S}_{N}+\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}\right] \\ = &\ \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right) \end{aligned}

を用いた。

\begin{aligned} \mathbb{E}_{\alpha}[\ln p(\alpha)] &=\mathbb{E}_{\alpha \sim q(\alpha)}\left[\ln \operatorname{Gam}\left(\alpha \mid a_{0}, b_{0}\right)\right] \\ &=\mathbb{E}_{\alpha \sim q(\alpha)}\left[\ln \left\{\frac{1}{\Gamma\left(a_{0}\right)} b_{0}^{a_{0}} \alpha^{a_{0}-1} e^{-b_{0} \alpha}\right\}\right] \\ &=\mathbb{E}_{\alpha \sim q(\alpha)}\left[-\ln \Gamma\left(a_{0}\right)+a_{0} \ln b_{0}+\left(a_{0}-1\right) \ln \alpha-b_{0} \alpha\right] \\ &=a_{0} \ln b_{0}+\left(a_{0}-1\right) \mathbb{E}_{\alpha}[\ln \alpha]-b_{0} \mathbb{E}_{\alpha}[\alpha]-\ln \Gamma\left(a_{0}\right) \\ &=a_{0} \ln b_{0}+\left(a_{0}-1\right)\left(\psi\left(a_{N}\right)-b_{N}\right)-b_{0} \frac{a_{N}}{b_{N}}-\ln \Gamma\left(a_{0}\right) \end{aligned}

\begin{aligned} -\mathbb{E}_{\mathbf{w}}\left[\ln q(\mathbf{w})\right] &=-\mathbb{E}_{\mathbf{w} \sim q(\mathbf{w})}\left[\ln \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right)\right] \\ &=-\mathbb{E}_{\mathbf{w} \sim q(\mathbf{w})}\left[\ln \left\{\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left|\mathbf{S}_{N}\right|^{\frac{1}{2}}} \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\}\right]\right.\\ &=\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{1}{2} \operatorname{Tr}\left[\mathbb{E}_{\mathbf{w}}\left[\left(\mathbf{w}-\mathbf{m}_{N}\right)\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}}\right] \mathbf{S}_{N}^{-1}\right] \\ &=\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{1}{2} \operatorname{Tr}\left[\operatorname{cov}[\mathbf{w}] \mathbf{S}_{N}^{-1}\right] \\ &=\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{1}{2} M \\ &=\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{M}{2}[1+\ln (2 \pi)] \end{aligned}

\begin{aligned}-\mathbb{E}_{\alpha}[\ln q(\alpha)] &=-\mathbb{E}_{\alpha \sim q(\alpha)}\left[\ln \operatorname{Gam}\left(\alpha \mid a_{N}, b_{N}\right)\right] \\ &=-\mathbb{E}_{\alpha \sim q(\alpha)}\left[-\ln \Gamma\left(a_{N}\right)+a_{N} \ln b_{N}+\left(a_{N}-1\right) \ln \alpha-b_{N} \alpha\right] \\ &=\ln \Gamma\left(a_{N}\right)-a_{N} \ln b_{N}-(a_N - 1)\mathbb{E}_{\alpha \sim q(\alpha)}[\ln \alpha]+b_{N} \mathbb{E}_{\alpha \sim q(\alpha)}[\alpha] \\ &=\ln \Gamma\left(a_{N}\right)-a_{N} \ln b_{N}-\left(a_{N}-1\right)\left(\psi\left(a_{N}\right)-\ln b_{N}\right)+b_{N} \frac{a_{N}}{b_{N}} \\ &=\ln \Gamma\left(a_{N}\right)-\left(a_{N}-1\right) \psi\left(a_{N}\right)-\ln b_{N}+a_{N} \end{aligned}

はじめに

演習 10.18

演習 10.19

演習 10.20

演習 10.21

演習 10.22

演習 10.23

演習 10.24

演習 10.25

演習 10.26

演習 10.27

Discussion