１変数ガウス分布と、指数型分布族の標準形との対応関係は、演習2.57により(2.220)〜(2.223)のとおり導出済み。
多変数ガウス分布（混合分布ではない）との対応関係は、これを拡張して、 $p(\mathbf{x}|\boldsymbol{\eta})=h(\mathbf{x})g(\boldsymbol{\eta})\exp [\boldsymbol{\eta}^T \mathbf{u}(\mathbf{x})]$ において、

\begin{aligned} \boldsymbol{\eta} :=\left[\begin{array}{c} \boldsymbol{\eta}_1 \\ \boldsymbol{\eta}_2 \end{array}\right] &\leftrightarrow \left[\begin{array}{c} \Lambda \boldsymbol{\mu} \\ -\frac{1}{2}\vec{\Lambda} \end{array}\right] \\ \mathbf{u}(\mathbf{x}) &\leftrightarrow \left[\begin{array}{c} \mathbf{x} \\ \mathbf{x}\mathbf{x}^T \end{array}\right] \\ h(\mathbf{x})&\leftrightarrow \frac{1}{(2\pi)^{D/2}}\\ g(\boldsymbol{\eta})&\leftrightarrow |-2\boldsymbol\eta _2|^{1/2} \exp \left( \frac{1}{4}\boldsymbol{\eta}_1^T \boldsymbol\eta _2 ^{-1}\boldsymbol\eta _1\right) \end{aligned}

と書ける。ただし、行列の上に矢印（ $\rightarrow$ ）が書かれているのは、行列の各要素を並べた $D \times D$ 次元のベクトルを意味する。後の式変形の都合で、 $g(\boldsymbol{\eta})$ の要素を $\boldsymbol{\eta}$ と $\mathbf{u}(\mathbf{x})$ に押し込めて、

\begin{aligned} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda \boldsymbol{\mu} \\ -\frac{1}{2}\vec{\Lambda}\\ \boldsymbol{\mu}^T \boldsymbol\Lambda \boldsymbol\mu \\ \ln |\boldsymbol{\Lambda} | \end{array}\right] \\ \mathbf{u}(\mathbf{x}) &\leftrightarrow \left[\begin{array}{c} \mathbf{x} \\ \mathbf{x}\mathbf{x}^T\\ -\frac{1}{2}\\ \frac{1}{2} \end{array}\right] \\ h(\mathbf{x})&\leftrightarrow \frac{1}{(2\pi)^{D/2}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{aligned}

と書き直す。

今考えているベイズ混合ガウスモデル:

\begin{aligned} p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda ) &=p(\mathbf{X}| \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol\Lambda ) p(\mathbf{Z}| \boldsymbol{\pi} ) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda )\\ &=\left(\prod_{n=1}^N \prod_{k=1}^K \pi_k^{z_{nk}}\right) \left(\prod_{n=1}^N \prod_{k=1}^K \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})^{z_{nk}} \right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda )\\ &=\left(\prod_{n=1}^N \prod_{k=1}^K \left\{ \pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})\right\}^{z_{nk}} \right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda )\\ \end{aligned}

の形に徐々に近づけていく。まずは $\pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})$ を指数型分布族の標準形に対応づけるには、

\begin{aligned} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] \\ \mathbf{u}(\mathbf{x}_n) &\leftrightarrow \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array}\right] \\ h(\mathbf{x}_n)&\leftrightarrow \frac{1}{(2\pi)^{D/2}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{aligned}

次に、 $\left\{ \pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})\right\}^{z_{nk}}$ を指数型分布族の標準形に対応づけるには、

\begin{aligned} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] \\ \mathbf{u} (\mathbf{x}_n,z_{nk})&\leftrightarrow z_{nk} \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array}\right] \\ h(\mathbf{x}_n,z_{nk})&\leftrightarrow \left( \frac{1}{(2\pi)^{D/2}} \right)^{z_{nk}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{aligned}

最後に、 $\prod_{k=1}^K \left\{ \pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})\right\}^{z_{nk}}$ を指数型分布族の標準形に対応づけるには、

\begin{aligned} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] _{k=1,\cdots,K}\\ \mathbf{u} (\mathbf{x}_n,\mathbf{z}_{n})&\leftrightarrow \left[ z_{nk} \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array} \right] \right] _{k=1,\cdots,K}\\ h(\mathbf{x}_n,\mathbf{z}_n)&\leftrightarrow \prod_{k=1}^K \left( \frac{1}{(2\pi)^{D/2}} \right)^{z_{nk}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{aligned}

ここで、 $[\ \ \ ]_{k=1,\cdots,K}$ とは、 $k=1$ に対応するベクトル、 $k=2$ に対応するベクトル $\cdots$ と順に並べてできる長いベクトルを表す。

今得られた対応関係を(10.116)式に代入して、

\begin{aligned} q^\star (\mathbf{z}_n) &= h(\mathbf{x}_n, \mathbf{z}_n) g(\mathbb{E}[\boldsymbol\eta])\exp \{\mathbb{E} [\boldsymbol{\eta}^T] \mathbf{u}(\mathbf{x}_n , \mathbf{z}_n )\}\\ &= \left\{ \prod_{k=1}^K \left(\frac{1}{(2\pi)^{D/2}}\right)^{z_{nk}}\right\} \cdot 1 \cdot \exp \left\{ \sum_{k=1}^K \left( \mathbb{E}\left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] \right)^T \left( z_{nk} \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array} \right] \right) \right\}\\ &= \left\{ \prod_{k=1}^K \left(\frac{1}{(2\pi)^{D/2}}\right)^{z_{nk}}\right\} \exp \left\{ \sum_{k=1}^K z_{nk} \cdot\mathbb{E}_{\boldsymbol\mu_k , \boldsymbol\Lambda_k}\left[ \boldsymbol{\mu}_k^T \Lambda_k \mathbf{x}_n -\frac{1}{2}\mathbf{x}_n^T\Lambda_k \mathbf{x}_n -\frac{1}{2} \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right] \right\}\\ &= \prod_{k=1}^K \left(\frac{1}{(2\pi)^{D/2}} \exp \left\{ -\frac{1}{2} \mathbb{E}_{\boldsymbol\mu_k , \boldsymbol\Lambda_k}\left[ (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k)\right] +\frac{1}{2} \mathbb{E}[\ln |\boldsymbol{\Lambda}_k|] +\mathbb{E}[\ln\pi_k] \right\} \right)^{z_{nk}}\\ &= \prod_{k=1}^K \left( \exp \left\{ - \frac{D}{2}\ln (2\pi)-\frac{1}{2} \mathbb{E}_{\boldsymbol\mu_k , \boldsymbol\Lambda_k}\left[ (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k)\right] +\frac{1}{2} \mathbb{E}[\ln |\boldsymbol{\Lambda}_k|] +\mathbb{E}[\ln\pi_k] \right\} \right)^{z_{nk}}\\ &=\prod_{k=1}^K \rho _{nk}^{z_{nk}} \end{aligned}

を得る。（最後の式変形は、(10.46)式の $\rho _{nk}$ の定義より。）以上より、

\begin{aligned} q^\star (\mathbf{Z}) &= \prod_{n=1}^{N} q^\star (\mathbf{z}_n)\\ &= \prod_{n=1}^{N}\prod_{k=1}^K \rho _{nk}^{z_{nk}} \end{aligned}

と(10.48)式を得る。

次に、(10.119)式を用いて(10.57)式と(10.59)式を導く。

\begin{aligned} q^\star (\boldsymbol\eta ) &\propto g(\boldsymbol\eta)^{\nu_N} \exp \left[ \nu _N \boldsymbol \eta^T \boldsymbol{\chi} _N \right]\\ &= 1 \cdot \exp \left[ \boldsymbol\eta^T \left( \nu_0\boldsymbol\chi_0+\sum_{n=1}^N \mathbb{E}_{z_n}[\mathbf{u}(\mathbf{x}_n,\mathbf{z}_n)]\right)\right]\\ &= \exp \left( \nu_0\boldsymbol\eta^T \boldsymbol\chi_0 +\sum_{n=1}^N\sum_{k=1}^K \mathbb{E}[z_{nk}] \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] ^T \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array} \right] \right)\\ &= \exp \left[ \nu_0\boldsymbol\eta^T \boldsymbol\chi_0 +\sum_{n=1}^N\sum_{k=1}^K r_{nk} \left( \boldsymbol{\mu}_k^T \Lambda_k \mathbf{x}_n -\frac{1}{2}\mathbf{x}_n^T\Lambda_k \mathbf{x}_n -\frac{1}{2} \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right) \right]\\ &= \exp \left[ \nu_0\boldsymbol\eta^T \boldsymbol\chi_0 +\sum_{n=1}^N\sum_{k=1}^K r_{nk} \left( -\frac{1}{2} (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k) +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right) \right] \end{aligned}

事前確率分布の項 $\exp\left[\nu_0\boldsymbol\eta^T\boldsymbol\chi_0\right]$ は、図10.5の事前確率分布

\begin{aligned} p(\boldsymbol\pi,\boldsymbol\mu,\boldsymbol\Lambda) &= p(\boldsymbol\pi)p(\boldsymbol\mu|\boldsymbol\Lambda)p(\boldsymbol\Lambda)\\ &\propto \prod_{k=1}^K \pi_k ^{\alpha_0-1} |\boldsymbol\Lambda_k |^{1/2}\exp \left[-\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0)\right] |\boldsymbol\Lambda_k|^{(\nu_0-D-1)/2}\exp\left(-\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right)\\ &= \exp \left[\sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k -\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0) +\frac{\nu_0-D}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right\}\right] \end{aligned}

に一致するように $\nu_0\boldsymbol\chi_0$ を選ぶことは可能（指数型分布族の事前共役分布の形を所与とすれば、この事実は証明不要な気もするが、念のため本問の解答の最後で $\nu_0\boldsymbol\chi_0$ の具体的な形を構築する）。

\begin{aligned} q^ \star (\boldsymbol\eta ) \propto & \exp \left[\sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k -\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0) +\frac{\nu_0-D}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right\}\right]\\ &\cdot \exp \left[ \sum_{n=1}^N\sum_{k=1}^K r_{nk} \left( -\frac{1}{2} (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k) +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right) \right] \end{aligned}

この同時確率分布は $\boldsymbol\pi$ に依存する項だけ積の形でくくり出せて、

\begin{aligned} q^\star (\boldsymbol\eta ) &\propto \exp \left[\sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k +\sum_{n=1}^N r_{nk} \ln\pi_k \right\} \right]\\ &=\exp \left[\sum_{k=1}^K\left\{ (\alpha_0+N_k-1)\ln \pi_k \right\} \right]\\ &=\prod_{k=1}^K \pi_k^{\alpha_0+N_k-1} \end{aligned}

であり、(10.57)式のディリクレ分布が導かれた。

残りの項のうち、 $\boldsymbol\mu_k$ に依存する項のみをくくり出すと、

\begin{aligned} q^\star (\boldsymbol\eta ) \propto \ & \exp \left[ -\frac{1}{2}\sum_{k=1}^K \left\{ \boldsymbol\mu_k^{\mathrm{T}} \left(\beta_0 \boldsymbol\Lambda_k + \sum_{n=1}^N r_{nk}\boldsymbol\Lambda_k\right)\boldsymbol\mu_k -2\left(\boldsymbol\mu_k^{\mathrm{T}}\beta_0\boldsymbol\Lambda_k \mathbf{m}_0 + \sum_{n=1}^N r_{nk} \boldsymbol\mu_k^{\mathrm{T}} \boldsymbol\Lambda_k \mathbf{x}_n \right) \right\} \right]\\ =\ &\exp \left[ -\frac{1}{2}\sum_{k=1}^K \left\{ \boldsymbol\mu_k^{\mathrm{T}} \left((\beta_0+N_k) \boldsymbol\Lambda_k \right)\boldsymbol\mu_k -2\boldsymbol\mu_k^{\mathrm{T}}\left(\boldsymbol\Lambda_k (\beta_0 \mathbf{m}_0 + \underbrace{N_{k} \overline{\mathbf{x}_k}}_{\sum_{n=1}^N r_{nk}\mathbf{x}_n} ) \right) \right\} \right]\\ = & \exp \left[ -\frac{1}{2}\sum_{k=1}^K \left\{ \left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right)^{\mathrm{T}} \left((\beta_0+N_k) \boldsymbol\Lambda_k \right)\left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right) \right.\right. \\ \\ &\hspace{2em} \left.\left.-\frac{1}{\beta_0+N_k}\left(\beta_0 \mathbf{m}_0+N_k \overline{\mathbf{x}_k}\right)^{\mathrm{T}} \boldsymbol\Lambda_k\left(\beta_0 \mathbf{m}_0+N_k \overline{\mathbf{x}_k}\right)\right\}\right] \\ = & \prod_{k=1}^K |\boldsymbol\Lambda_{k}|^{\frac{1}{2}}\exp \left[-\frac{1}{2} \left\{ \left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right)^{\mathrm{T}} \left((\beta_0+N_k) \boldsymbol\Lambda_k \right)\left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right)\right\} \right] \\ \cdot & \prod_{k=1}^{K} |\boldsymbol\Lambda_{k}|^{-\frac{1}{2}}\exp \left[\frac{1}{2} \frac{1}{\beta_0+N_k}\left(\beta_0 \mathbf{m}_0+N_k \overline{\mathbf{x}_k}\right)^{\mathrm{T}} \boldsymbol\Lambda_k\left(\beta_0 \mathbf{m}_0+N_k \overline{\mathbf{x}_k}\right)\right] \\ \propto & \prod_{k=1}^K |\boldsymbol\Lambda_{k}|^{\frac{1}{2}}\exp \left[-\frac{1}{2} \left\{ \left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right)^{\mathrm{T}} \left((\beta_0+N_k) \boldsymbol\Lambda_k \right)\left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right)\right\} \right] \\ = & \prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol\mu_k \mid \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}, \left((\beta_0+N_k)\boldsymbol\Lambda_k\right)^{-1}\right) \end{aligned}

これより、 $\boldsymbol\mu_k$ が(10.59)式のようなガウス分布に従っていることが示された。

最後に、その他の項をくくり出すと、

\begin{aligned} q^\star (\boldsymbol\eta ) \propto & \exp \left[\sum_{k=1}^K\left\{ -\frac{1}{2} \mathbf{m}_0^{\mathrm{T}} \beta_0\boldsymbol\Lambda_k \mathbf{m}_0 +\frac{\nu_0-D}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) +\sum_{n=1}^N r_{nk} \left( -\frac{1}{2} \mathbf{x}_n^{\mathrm{T}} \boldsymbol\Lambda_k \mathbf{x}_n +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| \right) \right\} \right] \\ & \cdot \prod_{k=1}^{K}|\boldsymbol\Lambda_k|^{-1/2}\exp \left[ \frac{1}{2} \frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^{\mathrm{T}}\boldsymbol\Lambda_k(\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})\right]\\ =& \prod_{k=1}^K |\boldsymbol\Lambda_k|^{\frac{\nu_0+N_k-D-1}{2}} \exp \left[ -\frac{1}{2} \left( \mathbf{m}_0^{\mathrm{T}} \beta_0\boldsymbol\Lambda_k \mathbf{m}_0 +{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) +\sum_{n=1}^N r_{nk} \mathbf{x}_n^{\mathrm{T}} \Lambda_k \mathbf{x}_n -\frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^{\mathrm{T}}\Lambda_k(\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}) \right) \right]\\ =& \prod_{k=1}^K |\boldsymbol\Lambda_k|^{\frac{\nu_0+N_k-D-1}{2}} \exp \left[ -\frac{1}{2} \left\{ {\rm Tr} \left( \mathbf{m}_0 \mathbf{m}_0^{\mathrm{T}} \beta_0\boldsymbol\Lambda_k \right) +{\rm Tr}\left(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k\right) +{\rm Tr} \left( \sum_{n=1}^N r_{nk} \mathbf{x}_n \mathbf{x}_n^{\mathrm{T}} \Lambda_k \right) -\frac{1}{\beta_0+N_k} {\rm Tr}\left( (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}) (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^{\mathrm{T}}\boldsymbol\Lambda_k \right) \right\} \right]\\ =& \prod_{k=1}^K |\boldsymbol\Lambda_k|^{\frac{\nu_0+N_k-D-1}{2}} \exp \left[ -\frac{1}{2} {\rm Tr}\left\{ \left( \beta_0 \mathbf{m}_0 \mathbf{m}_0^{\mathrm{T}} +\mathbf{W}_0^{-1} + \sum_{n=1}^N r_{nk} \mathbf{x}_n \mathbf{x}_n^{\mathrm{T}} -\frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}) (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^{\mathrm{T}} \right)\boldsymbol\Lambda_k \right\} \right] \\ \end{aligned}

となる。最後の式は、 $|\boldsymbol\Lambda|^{*}\exp [-\frac{1}{2}$ Tr $(*\boldsymbol\Lambda)]$ という形をしており、(10.59)式のウィシャート分布を得る。（一見すると(10.62)式の形と異なるように見えるが、 $\mathbf{S}_k$ の定義に戻って計算すると、上式と一致することが示せる。

おまけ：
${\nu}_0\boldsymbol\chi_0$ の具体的な形状は、以下の通り。

\begin{aligned} {\nu}_0\boldsymbol\chi_0 &= \left[\begin{array}{c} \beta_0 \mathbf{m}_0 \\ \beta_0 \overrightarrow{\mathbf{m}_0 \mathbf{m}_0^T}+\overrightarrow{\mathbf{W}_0^{-1}}\\ -\frac{1}{2}\beta_0\\ \frac{\nu_0-D-1}{2}\\ \alpha_0-1 \end{array}\right] _{k=1,\cdots,K} \end{aligned}

念のため、上の式を再現できることを確認しておく。

\begin{aligned} {\nu}_0 \boldsymbol{\eta} ^T \boldsymbol\chi_0 &= \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] _{k=1,\cdots,K}^T \left[\begin{array}{c} \beta_0 \mathbf{m}_0 \\ \beta_0 \overrightarrow{\mathbf{m}_0 \mathbf{m}_0^T}+\overrightarrow{\mathbf{W}_0^{-1}}\\ -\frac{1}{2}\beta_0\\ \frac{\nu_0-D-1}{2}\\ \alpha_0-1 \end{array}\right] _{k=1,\cdots,K}\\ &= \sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k -\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0) +\frac{\nu_0-D-1}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right\} \end{aligned}

となる。なお、最後のTr $(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k)$ の項への変形にあたって、一般の正方行列 $A,B$ について

\begin{aligned} {\rm Tr}[AB]={\rm Tr}\left[\left( \sum_j a_{ij}b_{jk}\right)_{ik} \right] =\sum_{i, j}a_{ij}b_{ji} \end{aligned}

が成り立つこと、および $B$ が対称行列であれば最右辺が $\sum_{i,j} a_{ij}b_{ij}$ に一致することを用いた。

演習 10.29

二階微分を計算することで，関数 $f(x) = \ln (x)$ は $0 \lt x \lt \infty$ で上に凸であることを示せ．

g(\eta)=\min _{x}\{\eta x-f(x)\} \tag{10.133}

で定義される双対な関数

g(\eta)

の形を求め，

f(x)=\min _{\eta}\{\eta x-g(\eta)\} \tag{10.132}

に従って

\eta x - g(\eta)

を

\eta

について最小化すると，実際に関数

\ln(x)

が得られることを確かめよ．

※P.209のように $f(x)$ と $g(\eta)$ が双対の働きとなっていることを示す。

$f(x) = \ln(x)$ の2階微分は $\displaystyle f''(x) = - \frac{1}{x^{2}}$ である。これは $0 \lt x \lt \infty$ で $f''(x) < 0$ となるので上に凸である。

$(10.133)$ 式に代入して

g(\eta)=\min _{x}\{\eta x-\ln(x)\}

最小値を求めるため $x$ について微分すると

\frac{dg}{dx} = \eta - \frac{1}{x}

$\displaystyle x=\frac{1}{\eta}$ のとき最小となり、このとき $g(\eta) = 1+\ln(\eta)$ となる。

今度はこれを $(10.132)$ 式に代入して $\displaystyle f(x) = \min _{\eta}\{\eta x-1-\ln(\eta)\}$ となる。これも同様に $\eta$ について微分すると

\frac{df}{d\eta} = x - \frac{1}{\eta}

これは $\displaystyle \eta = \frac{1}{x}$ のとき最小となり、このとき

f(x) = 1-\left( 1+\ln\left(\frac{1}{x}\right) \right) = \ln(x)

となり題意通り $\ln(x)$ が得られた。

演習 10.30

二階微分を計算することで，対数ロジスティック関数 $f(x)=-\ln \left(1+e^{-x}\right)$ が上に凸であることを示せ．対数ロジスティック関数を点 $x = \xi$ のまわりで一次までテイラー展開することで，変分上界

\sigma(x) \leqslant \exp (\eta x-g(\eta)) \tag{10.137}

を直接導出せよ．

後の問題設定のため、対数ロジスティック関数である $f(x)$ を

\sigma(x) = \frac{1}{1+e^{-x}} \tag{10.134}

を用いて

f(x)=-\ln \left(1+e^{-x}\right)=\ln \left(\frac{1}{1+e^{-x}}\right)=\ln \sigma(x)

と表しておく。これより

\begin{aligned} \frac{d \sigma}{d x} &=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}} = (\sigma(x))^2e^{-x} \\ &=\frac{1}{1+e^{-x}}-\frac{1}{\left(1+e^{-x}\right)^2} \\ &=\sigma(x)-(\sigma(x))^{2} \\ &=\sigma(x)(1-\sigma(x)) \end{aligned}

である。これから $f(x)$ が上に凸であること、すなわち $f''(x) \lt 0$ を示す。

f^{\prime}(x)=\frac{d}{d x} \ln \sigma(x)=\frac{1}{\sigma(x)} \frac{d}{d x} \sigma(x)=\frac{1}{\sigma(x)}(\sigma(x))^{2} e^{-x}=\sigma(x) e^{-x}

\begin{aligned} f^{\prime \prime}(x) &=\frac{d}{d x}\left(\sigma(x) e^{-x}\right) \\ &=\frac{d}{d x} \sigma(x) \cdot e^{-x}-\sigma(x) e^{-x} \\ &=\{\sigma(x)(1-\sigma(x))-\sigma(x)\} e^{-x} \\ &=-\{\sigma(x)\}^{2} e^{-x} \lt 0 \end{aligned}

これより $f(x)$ は上に凸であることが示された。

次に $\ln \sigma(x)$ を $x=\xi$ の周りで一次のテイラー展開を行うと

\begin{aligned} \ln \sigma(x) &=\ln \sigma(\xi)+\left.\frac{d\ln \sigma(x)}{d x}\right|_{x=\xi}(x-\xi)+O\left(\xi^{2}\right) \\ &\simeq \ln \sigma(\xi)+\sigma(\xi) e^{-\xi}(x-\xi) \end{aligned}

$\ln \sigma(x)$ は上に凸（concave）な関数なので、このテイラー展開は

\ln \sigma(x) \leq \ln \sigma(\xi)+\sigma(\xi) e^{-\xi}(x-\xi) \tag{A}

となる。

変分上界を求めるために、10.5節の議論のように（ $(10.127)$ あたりの変形） $\eta = \sigma(\xi)e^{-\xi}$ とおいたときの $\sigma(\xi)$ と $\xi$ を $\eta$ で表すことを目指す。

\begin{aligned} \eta &=\left(1+e^{-\xi}\right)^{-1} e^{-\xi} \\ &=\frac{e^{-\xi}}{1+e^{-\xi}} \\ &=1-\frac{1}{1+e^{-\xi}} \\ &=1-\sigma(\xi) \end{aligned}

これより $\sigma(\xi) = 1 - \eta$ となる。また、 $\eta = \sigma(\xi)e^{-\xi}$ の両辺の対数をとって

\begin{aligned} \ln \eta &=\ln \sigma(\xi)-\xi \\ \xi &=\ln \sigma(\xi)-\ln \eta \\ &=\ln (1-\eta)-\ln \eta \end{aligned}

となる。これらを $(\textrm{A})$ に代入して

\begin{aligned} \ln \sigma(x) & \leq \ln (1-\eta)+\eta(x-\ln (1-\eta)+\ln \eta) \\ &=\eta x+(1-n) \ln (1-\eta)+\eta \ln \eta \\ &=\eta x-g(\eta)\hspace{1em}(\because(10.136)) \end{aligned}

これは変分上界

\sigma(x) \leqslant \exp (\eta x-g(\eta)) \tag{10.137}

と等価である。すなわち、題意の通りテイラー展開から直接 $(10.137)$ 式が導出された。

演習 10.31

$x$ について二階微分を求めることで，関数 $f(x) = -\ln(e^{x/2}+e^{-x/2})$ は $x$ の上に凸な関数であることを示せ．次に，変数 $x^2$ についての二階微分を考え，これが $x^2$ については下に凸な関数で、あることを示せ． $f(x)$ のグラフを $x$ および $x^2$ について描いてみよ．関数 $f(x)$ を変数 $x^2$ について $\xi^2$ を中心として一次までテイラー展開することにより，ロジスティックシグモイド関数の下界

\sigma(x) \geqslant \sigma(\xi) \exp \left\{(x-\xi) / 2-\lambda(\xi)\left(x^{2}-\xi^{2}\right)\right\} \tag{10.144}

を直接導出せよ．

微分を計算する時の係数が煩わしいので、 $x/2$ を $x$ と定義し直す。（証明すべき凸性に影響はない。最後の計算結果で元に戻す。）

$x$ に関して上に凸であることの証明

\begin{aligned} f(x) &= -\ln(e^{x}+e^{-x})\\ f'(x) &= -\frac{e^{x}-e^{-x}}{e^x+e^{-x}}\\ f''(x) &= -\frac{(e^{x}+e^{-x})^2-(e^{x}-e^{-x})^2}{(e^{x}+e^{-x})^2}\\ &= -\frac{(2e^x)\cdot (2e^{-x})}{(e^{x}+e^{-x})^2}\\ &= -\frac{4}{(e^{x}+e^{-x})^2} < 0 \end{aligned}

$x^2$ に関して下に凸であることの証明

$y=x^2$ とおく。 $f(y)=-\ln (e^{\sqrt{y}}+e^{-\sqrt{y}})$ を真面目に $y$ で2階微分するのは面倒なので、以下のように解く。

\begin{aligned} \frac{d}{dy}f(x) &= \frac{dx}{dy}\frac{df(x)}{dx}\\ \frac{d^2}{dy^2}f(x) &= \frac{d}{dy}\left( \frac{dx}{dy} \frac{df(x)}{dx} \right)\\ &= \frac{d^2x}{dy^2}\frac{df(x)}{dx} + \frac{dx}{dy} \frac{d}{dy} \left( \frac{df(x)}{dx} \right)\\ &= \frac{d^2x}{dy^2}\frac{df(x)}{dx} + \left( \frac{dx}{dy} \right)^2 \cdot \frac{d^2 f(x)}{dx^2}\\ \end{aligned}

ここで、

\begin{aligned} \frac{dx}{dy} &= \left( \frac{dy}{dx} \right)^{-1} = \left( \frac{d}{dx} x^2 \right)^{-1} = (2x)^{-1} = \frac{1}{2x} \\ \frac{d^2x}{dy^2} &= \frac{d}{dy} \left( \frac{dx}{dy} \right) = \frac{d}{dy} \left( \frac{1}{2x} \right)= \frac{dx}{dy}\frac{d}{dx} \left( \frac{1}{2x} \right) = \frac{1}{2x} \left( -\frac{1}{2x^2}\right) = -\frac{1}{4x^3}\\ \end{aligned}

であるから、

\begin{aligned} \frac{d^2}{dy^2}f(x) &= \frac{d^2x}{dy^2}\frac{df(x)}{dx} + \left( \frac{dx}{dy} \right)^2 \cdot \frac{d^2 f(x)}{dx^2}\\ &= \left(-\frac{1}{4x^3} \right)\left(-\frac{e^x-e^{-x}}{e^x+e^{-x}} \right) + \left( \frac{1}{2x}\right)^2 \left( - \frac{4}{(e^x+e^{-x})^2}\right)\\ &=\frac{(e^x-e^{-x})(e^x+e^{-x})-4x}{4x^3 (e^x+e^{-x})^2}\\ &=\frac{e^{2x}-e^{-2x}-4x}{4x^3 (e^x+e^{-x})^2} \end{aligned}

ここで、分子が $x>0$ のとき正、 $x<0$ のとき負であることは、微分して普通に示しても良いが、

\begin{aligned} e^{2x} &= 1+(2x)+ \frac{1}{2!}(2x)^2+\frac{1}{3!}(2x)^3+\frac{1}{4!}(2x)^4 +\frac{1}{5!}(2x)^5 +\cdots\\ e^{-2x} &= 1-(2x)+ \frac{1}{2!}(2x)^2-\frac{1}{3!}(2x)^3+\frac{1}{4!}(2x)^4 -\frac{1}{5!}(2x)^5 +\cdots\\ e^{2x}-e^{-2x} &= 4x+ 2\cdot \left( \frac{1}{3!}(2x)^3+\frac{1}{5!}(2x)^5\cdots \right)\\ \end{aligned}

に注目すれば明らか。よって、右辺全体は $x>0$ でも $x<0$ でも正なので、 $\frac{d^2}{dy^2}f(x)>0$ と言える。

グラフを書いてみよ
$f(x)$ のグラフを $x$ について描く

$f(x)$ のグラフを $x^2$ について描く
下界(10.44)を直接導出する（ $x$ の定義は元に戻す）

\begin{aligned} f(x)&=f(x)|_{x=\xi} + (x^2-\xi^2) \left( \left. \frac{df(x)}{dy} \right|_{x=\xi} \right)+ \cdots\\ &\geq f(x)|_{x=\xi} + (x^2-\xi^2) \left(\left. \frac{df(x)}{dy} \right|_{x=\xi}\right)\\ &= f(\xi) + (x^2-\xi^2)\left( \frac{dx}{dy} \left.\frac{f(x)}{dx}\right|_{x=\xi}\right)\\ &= f(\xi) + (x^2-\xi^2)\left( -\frac{1}{4\xi} \tanh(\xi) \right)\\ &\equiv f(\xi) - \lambda(\xi) (x^2-\xi^2)\\ \end{aligned}

となる（不等号は、 $x^2$ に関する凸性より）。従って、

\begin{aligned} \ln \sigma(x) &= \frac{x}{2} + f(x)\\ &\geq \frac{x}{2} + f(\xi) - \lambda(\xi) (x^2-\xi^2)\\ &= \frac{x-\xi}{2} + \left( \frac{\xi}{2}+f(\xi)\right) - \lambda(\xi) (x^2-\xi^2)\\ &= \frac{x-\xi}{2} + \ln \sigma (\xi) - \lambda(\xi) (x^2-\xi^2)\\ \end{aligned}

両辺のexpをとって、(10.144)式を得る。

演習 10.32

ロジスティック回帰の変分ベイズ推定を時系列に従って学習し，データ点が一回に一つだけ到着し，次のデータ点が到着するまでに処理して廃棄しなければならない場合について考える．このとき，事後分布のガウス近似は下界

p(t \mid \mathbf{w})=e^{a t} \sigma(-a) \geqslant e^{a t} \sigma(\xi) \exp \left\{-(a+\xi) / 2-\lambda(\xi)\left(a^{2}-\xi^{2}\right)\right\} \tag{10.151}

を用いることで常に保持できることを示せ．この場合，分布は事前分布で初期化され，データ点が取り込まれるごとに。対応する変分パラメータ

\xi_n

が最適化される．

※(方針)
(10.151)式を利用しガウス変分事後分布の逐次的な更新式が得られることを確認する

データN個のときの変分事後分布を

q_N(\mathbf{w})=\mathcal{N}(\mathbf{w}\mid\mathbf{m}_N,\mathbf{S}_N^{-1})

とする．N+1個めのデータが与えられたとき(10.151)より

p(t_{N+1}|,\mathbf{w})=e^{\mathbf{w}^{\top} \phi_{N+1} t_{N+1}} \sigma\left(-\mathbf{w}^{\top} \phi_{N+1}\right) \geq e^{\mathbf{w}^{\top} \phi_{N+1} t_{N+1}} \sigma\left(\xi_{N+1}\right) \exp \left[-\left(\mathbf{w}^{\top} \phi_{N+1}+\xi_{N+1}\right) / 2-\lambda\left(\xi_{N+1}\right)\left\{\left(\mathbf{w}^{\top} \phi_{N+1}\right)^{2}-\xi_{N+1}^{2}\right\}\right].

この式から

p(t_{N+1},\mathbf{w})=p(t_{N+1}\mid\mathbf{w})p(\mathbf{w})\geq p(\mathbf{w})e^{\mathbf{w}^{\top} \phi_{N+1} t_{N+1}} \sigma\left(\xi_{N+1}\right) \exp \left[-\left(\mathbf{w}^{\top} \phi_{N+1}+\xi_{N+1}\right) / 2-\lambda\left(\xi_{N+1}\right)\left\{\left(\mathbf{w}^{\top} \phi_{N+1}\right)^{2}-\xi_{N+1}^{2}\right\}\right].

を得る両辺の対数をとって

\begin{aligned} \ln p(t_{N+1}\mid\mathbf{w})p(\mathbf{w})&\geq\ln p(\mathbf{w})+\mathbf{w}^{\top} \phi_{N+1} t_{N+1}+\ln \sigma\left(\xi_{N+1}\right)-\left(\mathbf{w}^{\top} \phi_{N+1}+\xi_{N+1}\right) / 2-\lambda\left(\xi_{N+1}\right)\left\{\left(\mathbf{w}^{\top} \phi_{N+1}\right)^{2}-\xi_{N+1}^{2}\right\}\\ &\simeq -\frac{1}{2}(\mathbf{w}-\mathbf{m}_N)^{\top}\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)+\mathbf{w}^{\top} \phi_{N+1}\left(t_{N+1}-\frac{1}{2}\right)-\lambda\left(\xi_{N+1}\right) \mathbf{w}^{\top} \phi_{N+1} \phi_{N+1}^{\top} \mathbf{w}+Const \end{aligned}

これは $\mathbf{w}$ の二次形式になっているため，N+1個目のデータが与えられたときの変分事後分布を $q_{N+1}(\mathbf{w})$ とするとガウス分布になり，平方完成することで

q_{N+1}(\mathbf{w})=\mathcal{N}(\mathbf{w}\mid\mathbf{m}_{N+1},\mathbf{S}_{N+1}^{-1})

\mathbf{m}_{N+1}＝\mathbf{S}_{N+1}\left[\mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\left(t_{N+1}-1 / 2\right) \boldsymbol{\phi}_{N+1}\right]

\mathbf{S}_{N+1}^{-1}＝2 \lambda\left(\xi_{N+1}\right) \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{\mathrm{T}}+\mathbf{S}_{N}^{-1}

が得られる．

演習 10.33

Q\left(\boldsymbol{\xi}, \boldsymbol{\xi}^{\text {old }}\right)=\sum_{n=1}^{N}\left\{\ln \sigma\left(\xi_{n}\right)-\xi_{n} / 2-\lambda\left(\xi_{n}\right)\left(\boldsymbol{\phi}_{n}^{\mathrm{T}} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right] \boldsymbol{\phi}_{n}-\xi_{n}^{2}\right)\right\}+\mathrm{const} . \tag{10.161}

で定義した量 $Q\left(\boldsymbol{\xi}, \boldsymbol{\xi}^{\text {old }}\right)$ を変分パラメータ $\xi_n$ について微分することで，

\left(\xi_{n}^{\text {new }}\right)^{2}=\boldsymbol{\phi}_{n}^{\mathrm{T}} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right] \boldsymbol{\phi}_{n}=\boldsymbol{\phi}_{n}^{\mathrm{T}}\left(\mathbf{S}_{N}+\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}\right) \boldsymbol{\phi}_{n} \tag{10.163}

で与えられるベイズロジスティック回帰モデルの

\xi_n

の更新式を示せ．

Preparation

$\sigma(x)$ の微分

\begin{aligned} \frac{\partial \sigma(x)}{\partial x} &= \frac{e^{-x}}{(1 + e^{-x})^2} \\ &= \sigma(x)(1 - \sigma(x)) \end{aligned}

$\log(\sigma(x))$ の微分

\begin{aligned} \frac{\partial \log(\sigma(x))}{\partial x} &= (1 + e^{-x})\frac{e^{-x}}{(1 + e^{-x})^2} \\ &= \frac{e^{-x}}{1 + e^{-x}} = 1 - \sigma(x) \end{aligned}

$\lambda(\xi)$

\lambda(\xi) = \frac{1}{2\xi}\left[\sigma(\xi) - \frac{1}{2}\right] \tag{10.150}

分散の公式

\begin{aligned} \mathbf{S}_N &= \mathbb{E}[\mathbf{ww}^{\mathrm{T}}] - \mathbb{E}[\mathbf{w}]\mathbb{E}[\mathbf{w}^{\mathrm{T}}] \\ &= \mathbb{E}[\mathbf{ww}^{\mathrm{T}}] - \mathbf{m}_N\mathbf{m}^{\mathrm{T}}_N \end{aligned}

Solution

\begin{aligned} \frac{\partial Q}{\partial \xi_n} &= (1 - \sigma(\xi_n)) - \frac{1}{2} + 2\xi_n\lambda(\xi_n) - \lambda'(\xi_n)(\mathbf{\phi}^{\mathrm{T}}_n\mathbb{E}\left[\mathbf{ww}^{\mathrm{T}}\right]\mathbf{\phi}_n - \xi^2_n) \\ &= -2\xi_n\lambda(\xi_n) + 2\xi_n\lambda(\xi_n) - \lambda'(\xi_n)(\mathbf{\phi}^{\mathrm{T}}_n\mathbb{E}\left[\mathbf{ww}^{\mathrm{T}}\right]\mathbf{\phi}_n - \xi^2_n) \\ &= 0 \end{aligned}

よって、

(\xi^{\mathrm{new}}_n)^2 = \mathbf{\phi}^{\mathrm{T}}_n\mathbb{E}\left[\mathbf{ww}^{\mathrm{T}}\right]\mathbf{\phi}_n = \mathbf{\phi}^{\mathrm{T}}_n\left(\mathbf{S}_N + \mathbf{m}_N\mathbf{m}^{\mathrm{T}}_N\right)\mathbf{\phi}_n

演習 10.34

この演習問題では，4.5節のベイスロジスティック回帰モデルの変分パラメータ $\boldsymbol{\xi}$ の更新式を，

\begin{aligned} \mathcal{L}(\boldsymbol{\xi})&= \frac{1}{2} \ln \frac{\left|\mathbf{S}_{N}\right|}{\left|\mathbf{S}_{0}\right|}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\frac{1}{2} \mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \\ &+\sum_{n=1}^{N}\left\{\ln \sigma\left(\xi_{n}\right)-\frac{1}{2} \xi_{n}+\lambda\left(\xi_{n}\right) \xi_{n}^{2}\right\} \end{aligned} \tag{10.164}

で与えられる下界を直接最大化することで導出する．これには

\mathcal{L}(\boldsymbol{\xi})

の

\xi_n

に附する微分を0としてみよ．行列式の対数の微分には結果

\frac{d}{d \alpha} \ln |\mathbf{A}|=\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}

を，変分事後分布

q(\mathbf{w})

の平均と分散には

\mathbf{m}_{N}=\mathbf{S}_{N}\left(\mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\sum_{n=1}^{N}\left(t_{n}-1 / 2\right) \phi_{n}\right) \tag{10.157}

\mathbf{S}_{N}^{-1}=\mathbf{S}_{0}^{-1}+2 \sum_{n=1}^{N} \lambda\left(\xi_{n}\right) \phi_{n} \phi_{n}^{\mathrm{T}} \tag{10.158}

の式を利用せよ．

Preparation

公式

\frac{\partial}{\partial x}(\mathbf{A}^{-1}) = -\mathbf{A}^{-1}\frac{\partial\mathbf{A}}{\partial x}\mathbf{A}^{-1} \tag{C.21}

後で使う式変形

\begin{aligned} \mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_{N}\mathbf{m}_N &= [\mathbf{S}_{N}\mathbf{S}^{-1}_{N}\mathbf{m}_N]^{\mathrm{T}}\mathbf{S}^{-1}_{N}[\mathbf{S}_{N}\mathbf{S}^{-1}_{N}\mathbf{m}_N] \\ &= [\mathbf{S}_{N}\mathbf{a}_N]^{\mathrm{T}}\mathbf{S}^{-1}_{N}[\mathbf{S}_{N}\mathbf{a}_N] \\ &= \mathbf{a}^{\mathrm{T}}_N\mathbf{S}^{-1}_{N}\mathbf{a}_N. \end{aligned}

ただし、

\mathbf{a}_N = \mathbf{S}^{-1}_{N}\mathbf{m}_N.

Solution

\begin{aligned} \frac{\partial \mathcal{L}(\mathbf{\xi})}{\partial \xi_n} &= \frac{1}{2}\mathrm{Tr}\left(\mathbf{S}^{-1}_{N}\frac{\partial \mathbf{S}_{N}}{\partial \xi_n}\right) + \frac{1}{2} \mathrm{Tr}\left(\mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N \frac{\partial \mathbf{S}_{N}}{\partial \xi_n}\right) + \lambda'(\xi_n)\xi^2_n \\ &= \frac{1}{2}\mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\frac{\partial \mathbf{S}_{N}}{\partial \xi_n}\right) + \lambda'(\xi_n)\xi^2_n \\ &= -\frac{1}{2}\mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\mathbf{S}_N[2\lambda'(\xi_n)\mathbf{\phi}_N\mathbf{\phi}^{\mathrm{T}}_N]\mathbf{S}_N\right) + \lambda'(\xi_n)\xi^2_n \\ &= -\lambda'(\xi_n)\left\{\mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\mathbf{S}_N\mathbf{\phi}_N\mathbf{\phi}^{\mathrm{T}}_N\mathbf{S}_N\right) - \xi^2_n\right\} \\ &= 0. \end{aligned}

よって、

\begin{aligned} \xi^2_n &= \mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\mathbf{S}_N\mathbf{\phi}_N\mathbf{\phi}^{\mathrm{T}}_N\mathbf{S}_N\right) \\ &= (\mathbf{S}_N\mathbf{\phi}_n)^{\mathrm{T}}(\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)(\mathbf{S}_N\mathbf{\phi}_n) \\ &= \mathbf{\phi}^{\mathrm{T}}_n(\mathbf{S}_N + \mathbf{S}_N\mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N\mathbf{S}_N)\mathbf{\phi}_n \\ &= \mathbf{\phi}^{\mathrm{T}}_n(\mathbf{S}_N + \mathbf{m}_N\mathbf{m}^{\mathrm{T}}_N)\mathbf{\phi}_n \end{aligned}

演習 10.35

変分ベイズロジスティック回帰モデルの下界 $\mathcal{L}(\boldsymbol{\xi})$ についての結果

\begin{aligned} \mathcal{L}(\boldsymbol{\xi})&= \frac{1}{2} \ln \frac{\left|\mathbf{S}_{N}\right|}{\left|\mathbf{S}_{0}\right|}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\frac{1}{2} \mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \\ &+\sum_{n=1}^{N}\left\{\ln \sigma\left(\xi_{n}\right)-\frac{1}{2} \xi_{n}+\lambda\left(\xi_{n}\right) \xi_{n}^{2}\right\} \end{aligned} \tag{10.164}

を導出せよ．これには

\mathcal{L}(\boldsymbol{\xi})

を定める積分

\ln p(\mathbf{t})=\ln \int p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w}) \mathrm{d} \mathbf{w} \geqslant \ln \int h(\mathbf{w}, \boldsymbol{\xi}) p(\mathbf{w}) \mathrm{d} \mathbf{w}=\mathcal{L}(\boldsymbol{\xi}) \tag{10.159}

の中で，ガウス事前分布の式に

q(\mathbf{w}) = \mathcal{N}(\mathbf{w}\mid \mathbf{m}_0, \mathbf{\Sigma}_0)

を，尤度関数に下界

h(\mathbf{w}, \boldsymbol{\xi})

を代入するのが最も簡単である．次に指数関数の中で

\mathbf{w}

に依存する項をまとめ，平方完成することでガウス分布の積分を導出せよ．多次元ガウス分布の正規化項についての標準的な結果を使ってこれを計算し，最後に対数をとって

(10.164)

を求めよ．

$h(\mathbf{w}, \xi)p(\mathbf{w})$ を計算する

\begin{aligned} h(\mathbf{w}, \xi)p(\mathbf{w}) &= \mathrm{N}(\mathbf{w}|\mathbf{m}_0, \mathbf{S}_0)\prod^N \sigma(\xi_n)\exp\{\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_nt_n - (\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_n + \xi_n)/2 - \lambda(\xi_n)([\mathbf{w}^{\mathrm{T}}\mathbf{\phi}]^2 - \xi^2_n)\} \\ &= \{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n)\} \cdot \exp\{-\frac{1}{2}(\mathbf{w} - \mathbf{m}_0)^{\mathrm{T}}\mathbf{S}^{-1}_0(\mathbf{w} - \mathbf{m}_0)\} \\ & \ \ \ \cdot \prod^N \exp\{\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_nt_n - (\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_n + \xi_n)/2 - \lambda(\xi_n)([\mathbf{w}^{\mathrm{T}}\mathbf{\phi}]^2 - \xi^2_n)\} \\ &= \left\{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right)\right\} \\ & \ \ \ \cdot \exp\left\{-\frac{1}{2}\mathbf{w}^{\mathrm{T}}\left(\mathbf{S}^{-1}_0 + 2\sum^N\lambda(\xi_n)\mathbf{\phi}_n\mathbf{\phi}^{\mathrm{T}}_n\right)\mathbf{w} + \mathbf{w}^{\mathrm{T}}\left(\mathbf{S}^{-1}_0\mathbf{m}_0 + \sum^N \mathbf{\phi}_n\left(t_n - \frac{1}{2}\right)\right) \right\} \\ &= \left\{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right)\right\} \\ & \ \ \ \cdot \exp\left\{\frac{1}{2}\mathbf{w}^{\mathrm{T}}\mathrm{S}^{-1}_N\mathbf{w} + \mathbf{w}^{\mathrm{T}}\mathrm{S}^{-1}_N\mathbf{m}_N\right\} \ (\because (10.157)-(10.158)) \\ &= \left\{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right) + \frac{1}{2}\mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N\right\} \\ & \ \ \ \cdot \exp\left\{-\frac{1}{2}(\mathbf{w} - \mathbf{m}_N)^{\mathrm{T}}\mathrm{S}^{-1}_N(\mathbf{w} - \mathbf{m}_N)\right\} \end{aligned}

$\mathbf{w}$ で積分する

\begin{aligned} \int h(\mathbf{w}, \xi)p(\mathbf{w})d\mathbf{w} &= (2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \\ & \ \ \ \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right) + \frac{1}{2}\mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N \\ & \ \ \ \cdot (2\pi)^{W/2} \cdot |\mathbf{S}_N|^{1/2} \\ &= \left(\frac{|\mathbf{S}_N|}{|\mathbf{S}_0|}\right)^{1/2} \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right) + \frac{1}{2}\mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N \end{aligned}

対数をとる

\mathcal{L}(\xi) = \frac{1}{2}\log\frac{|\mathbf{S}_N|}{|\mathbf{S}_0|} - \frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 + \frac{1}{2} \mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N + \sum^N \left\{\log\sigma(\xi_n) - \frac{\xi_n}{2} + \lambda(\xi_n)\xi^2_n \right\}

演習 10.36

10.7節で議論したADFの近似法を考える．このとき.因子 $f_j(\boldsymbol{\theta})$ を含めることで，モデルエビデンスを

p_{j}(\mathcal{D}) \simeq p_{j-1}(\mathcal{D}) Z_{j} \tag{10.242}

のように更新できることを示せ．ここで $Z_j$ は正規化定数であり

Z_{j}=\int f_{j}(\theta) q^{\backslash j}(\boldsymbol{\theta}) \mathrm{d} \boldsymbol{\theta} \tag{10.197}

で与えられる

p_0({\mathcal{D}} ) = 1

と初期化して上の結果を再帰的に適用することで，

p(\mathcal{D}) \simeq \prod_{j} Z_{j} \tag{10.243}

を導け．

※

演習 10.37

10.7節のEP法のアルゴリスムについて考え，定義

p(\mathcal{D}, \theta)=\prod_{i} f_{i}(\boldsymbol{\theta}) \tag{10.188}

における因子の一つ

f_0(\boldsymbol{\theta})

が，近似分布

q(\boldsymbol{\theta})

と同じ形の指数分布族になっていると仮定する．このとき因子

\tilde{f}_0(\boldsymbol{\theta})

を

f_0(\boldsymbol{\theta})

で初期化すれば，EP法での

\tilde{f}_0(\boldsymbol{\theta})

の更新は

\tilde{f}_0(\boldsymbol{\theta})

を変えないことを示せ．典型的には，これは因子の一つが事前分布

p(\boldsymbol{\theta})

の場合に起こり，事前分布に対応する因子は一度だけ厳密な形で取り込まれ，以降は更新する必要はないことがわかる．

$q(\boldsymbol{\theta})$ の初期値は

q_{\mathrm{init}}(\boldsymbol{\theta}) = \tilde{f_0}(\boldsymbol{\theta})\prod_{i \neq 0}\tilde{f_i}(\boldsymbol{\theta})

と表される。ここで、

q^{\setminus 0}(\boldsymbol{\theta}) = \prod_{i \neq 0}\tilde{f_i}(\boldsymbol{\theta}).

$q^{new}(\boldsymbol{\theta})$ は、モーメント一致法を用いて、

q^{new}(\boldsymbol{\theta}) = q^{\setminus 0}(\boldsymbol{\theta})f_0(\boldsymbol{\theta}).

問題の設定より、 $\tilde{f_0}(\boldsymbol{\theta})$ の初期値は $f_0(\boldsymbol{\theta})$ なので、

q^{new}(\boldsymbol{\theta}) = q_{\mathrm{init}}(\boldsymbol{\theta}).

また、

Z_0 = \int q^{\setminus 0}(\boldsymbol{\theta})f_0(\boldsymbol{\theta})d\boldsymbol{\theta} = \int q_{\mathrm{init}}(\boldsymbol{\theta})d\boldsymbol{\theta} = 1.

従って、(10.207)の更新式は、

\tilde{f_0}(\boldsymbol{\theta}) = Z_0\frac{q^{new}(\boldsymbol{\theta})}{q^{\setminus 0}(\boldsymbol{\theta})} = f_0(\boldsymbol{\theta})

となる。

演習 10.38

この演習問題と次の演習問題では，雑音データ問題でのEP法の結果 $(10.214)-(10.224)$ を確かめる．除算を行う公式

q^{\backslash j}(\boldsymbol{\theta})=\frac{q(\boldsymbol{\theta})}{\widetilde{f}_{j}(\boldsymbol{\theta})} \tag{10.205}

から始めて，

\mathbf{m}^{\backslash n}=\mathbf{m}+v^{\backslash n} v_{n}^{-1}\left(\mathbf{m}-\mathbf{m}_{n}\right) \tag{10.214}

\left(v^{\backslash n}\right)^{-1}=v^{-1}-v_{n}^{-1}\tag{10.215}

を，指数関数の中を平方完成して平均と分散を見出すことで導け．また

Z_{j}=\int q^{\backslash j}(\boldsymbol{\theta}) f_{j}(\boldsymbol{\theta}) \mathrm{d} \boldsymbol{\theta} \tag{10.206}

で定義される正規化定数 $Z_n$ は，雑音データ問題については

Z_{n}=(1-w) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{m}^{\backslash n},\left(v^{\backslash n}+1\right) \mathbf{I}\right)+w \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{0}, a \mathbf{I}\right) \tag{10.216}

で与えられることを示せ．これには一般的な結果

p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}

を利用すればよい．

(10.205)、(10.212)、(10.213)式より、

\begin{aligned} q^{\setminus j}(\boldsymbol{\theta}) &= \frac{q(\boldsymbol{\theta})}{\tilde{f_j}(\boldsymbol{\theta})} = \frac{\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}, v\mathbf{I})}{s_n \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_n, v_n\mathbf{I})} \\ &\propto \frac{\exp\left\{-\frac{1}{2}(\boldsymbol{\theta} - \mathrm{m})^{\mathrm{T}}(v\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m})\right\}}{\exp\left\{-\frac{1}{2}(\boldsymbol{\theta} - \mathrm{m}_n)^{\mathrm{T}}(v_n\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m}_n)\right\}} \\ &\propto \exp\left\{-\frac{1}{2}(\boldsymbol{\theta} - \mathrm{m})^{\mathrm{T}}(v\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m}) + \frac{1}{2}(\boldsymbol{\theta} - \mathrm{m}_n)^{\mathrm{T}}(v_n\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m}_n)\right\} \\ &= \exp\left\{-\frac{1}{2}(\boldsymbol{\theta}^{\mathrm{T}}\mathbf{A}\boldsymbol{\theta} + \boldsymbol{\theta}^{\mathrm{T}}\mathbf{B})\right\} + \mathrm{const} \end{aligned}

まず、

\begin{aligned} (\boldsymbol{\Sigma}^{\setminus n})^{-1} &= \mathbf{A} = (v\mathbf{I})^{-1} - (v_n\mathbf{I})^{-1} \\ &= (v^{-1} - v^{-1}_n)\mathbf{I}^{-1} \end{aligned}

また、

-2(\boldsymbol{\Sigma}^{\setminus n})^{-1}\mathbf{m}^{\setminus n} = \mathbf{B} = 2\left(-(v\mathbf{I})^{-1}\mathbf{m} + (v_n\mathbf{I})^{-1}\mathbf{m}_n\right)

より、

\begin{aligned} \mathbf{m}^{\setminus n} &= -(\boldsymbol{\Sigma}^{\setminus n})^{-1}\left(-(v\mathbf{I})^{-1}\mathbf{m} + (v_n\mathbf{I})^{-1}\mathbf{m}_n\right) \\ &= -(v^{\setminus n})\left(-v^{-1}\mathbf{m} + (v_n^{-1}\mathbf{m}_n\right) \\ &= v^{\setminus n}v^{-1}\mathbf{m} - \frac{v^{\setminus n}}{v_n}\mathbf{m}_n \\ &= v^{\setminus n}((v^{\setminus n})^{-1} - v^{-1}_n)\mathbf{m} - \frac{v^{\setminus n}}{v_n}\mathbf{m}_n \\ &= \mathbf{m} + \frac{v^{\setminus n}}{v_n}(\mathbf{m} - \mathbf{m}_n) \end{aligned}

次に、(10.206)、(10.209)式より、

\begin{aligned} Z_n &= \int q^{\setminus n}(\boldsymbol{\theta})f_n(\boldsymbol{\theta})d\boldsymbol{\theta} \\ &= \int \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\setminus n}, v^{\setminus n}\mathbf{I})\left\{(1 - w)\mathcal{N}(\mathbf{x}_n|\boldsymbol{\theta}, \mathbf{I}) + w\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I})\right\} \\ &= (1 - w)\int \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\setminus n}, v^{\setminus n}\mathbf{I})\mathcal{N}(\mathbf{x}_n|\boldsymbol{\theta}, \mathbf{I})d\boldsymbol{\theta} + w\int \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\setminus n}, v^{\setminus n}\mathbf{I})\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I})d\boldsymbol{\theta} \\ &= (1 - w) \mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I}) + w\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I}). (\because (2.113)-(2.115)) \end{aligned}

演習 10.39

雑音データ問題でのEP法における $q^{\text {new }}(\boldsymbol{\theta})$ の平均と分散は

\mathbf{m}^{\text {new }}=\mathbf{m}^{\backslash n}+\rho_{n} \frac{v^{\backslash n}}{v^{\backslash n}+1}\left(\mathbf{x}_{n}-\mathbf{m}^{\backslash n}\right) \tag{10.217}

v^{\text {new }}=v^{\backslash n}-\rho_{n} \frac{\left(v^{\backslash n}\right)^{2}}{v^{\backslash n}+1}+\rho_{n}\left(1-\rho_{n}\right) \frac{\left(v^{\backslash n}\right)^{2}\left\|\mathbf{x}_{n}-\mathbf{m}^{\backslash n}\right\|^{2}}{D\left(v^{\backslash n}+1\right)^{2}} \tag{10.218}

で与えられることを示せ．このためには，最初に $q^{\text {new }}(\boldsymbol{\theta})$ の下での $\boldsymbol{\theta}$ と $\boldsymbol{\theta}\boldsymbol{\theta}^{\mathrm T}$ の期待値が

\begin{aligned} \mathbb{E}[\boldsymbol{\theta}] &=\mathbf{m}^{\backslash n}+v^{\backslash n} \nabla_{\mathbf{m} \backslash n} \ln Z_{n} \\ \mathbb{E}\left[\boldsymbol{\theta}^{\mathrm{T}} \boldsymbol{\theta}\right] &=2\left(v^{\backslash n}\right)^{2} \nabla_{v^{\backslash n}} \ln Z_{n}+2 \mathbb{E}[\boldsymbol{\theta}]^{\mathrm{T}} \mathbf{m}^{\backslash n}-\left\|\mathrm{m}^{\backslash n}\right\|^{2}+v^{\backslash n} D \end{aligned}

となることを証明し， $Z_n$ についての結果

Z_{n}=(1-w) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{m}^{\backslash n},\left(v^{\backslash n}+1\right) \mathbf{I}\right)+w \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{0}, a \mathbf{I}\right) \tag{10.216}

を用いる．次に，

\widetilde{f}_{j}(\boldsymbol{\theta})=Z_{j} \frac{q^{\text {new }}(\boldsymbol{\theta})}{q \backslash j(\theta)} \tag{10.207}

を用いて指数関数の中を平方完成することで $(10.220)-(10.222)$ の結果を証明せよ．最後に， $(10.208)$ を用いて $(10.223)$ の結果を導け．

Preparation

正規分布の微分

\begin{aligned} \frac{\partial \mathcal{N}(x|\mu, \sigma^2)}{\partial \mu} &= \mathcal{N}(x|\mu, \sigma^2)\cdot\frac{x - \mu}{\sigma^2} \\ \frac{\partial \mathcal{N}(x|\mu, \sigma^2)}{\partial \sigma^2} &= \mathcal{N}(x|\mu, \sigma^2)\cdot\left(\frac{(x - \mu)^2}{(\sigma^2)^2} - \frac{1}{\sigma^2}\right) \\ \end{aligned}

$\rho_n$

\begin{aligned} \rho_n &= \frac{1}{Z_n}(1 - w)\mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I}) \\ &= \frac{1}{Z_n}(1 - w)\frac{Z_n - w\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I})}{1 - w} \ (\because (10.216)) \\ &= 1 - \frac{w}{Z_n}\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I}). \end{aligned}

Solution

まず、

\begin{aligned} \nabla_{\mathbf{m}^{\setminus n}} \ln Z_n &= \frac{1}{Z_n}\nabla_{\mathbf{m}^{\setminus n}} \int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta}) d\boldsymbol{\theta} \\ &= \frac{1}{Z_n}\int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta})\left\{-\frac{1}{v^{\setminus n}}(\mathbf{m}^{\setminus n} - \boldsymbol{\theta})\right\} d\boldsymbol{\theta} \\ &= -\frac{\mathbf{m}^{\setminus n}}{v^{\setminus n}} + \frac{\mathbb{E}(\boldsymbol{\theta})}{v^{\setminus n}} \ (\because (10.203)???) \end{aligned}

上式を整理すると、

\begin{aligned} \mathbb{E}(\boldsymbol{\theta}) &= \mathbf{m}^{\setminus n} + v^{\setminus n}\nabla_{\mathbf{m}^{\setminus n}} \ln Z_n \\ &= \mathbf{m}^{\setminus n} + v^{\setminus n} \frac{1}{Z_n} (1 - w)\mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I})\cdot\frac{\mathbf{x}_n - \mathbf{m}^{\setminus n}}{v^{\setminus n} + 1} \\ &= \mathbf{m}^{\setminus n} + v^{\setminus n}\rho_n\frac{\mathbf{x}_n - \mathbf{m}^{\setminus n}}{v^{\setminus n} + 1} \end{aligned}

同様に、

\begin{aligned} \nabla_{v^{\setminus n}} \ln Z_n &= \frac{1}{Z_n}\nabla_{v^{\setminus n}} \int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta}) d\boldsymbol{\theta} \\ &= \frac{1}{Z_n} \int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta})\left\{\frac{1}{2(v^{\setminus n})^2}(\mathbf{m}^{\setminus n} - \boldsymbol{\theta})^{\mathrm{T}}(\mathbf{m}^{\setminus n} - \boldsymbol{\theta}) - \frac{D}{2v^{\setminus n}}\right\} \\ &= \frac{1}{2(v^{\setminus n})^2}\left\{\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}) - 2\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}})\mathbf{m}^{\setminus n} + \|\mathbf{m}^{\setminus n}\|^2 \right\} - \frac{D}{2v^{\setminus n}}. \end{aligned}

整理すると、

\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}) = 2(v^{\setminus n})^2 \nabla_{v^{\setminus n}} \ln Z_n + 2\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}})\mathbf{m}^{\setminus n} - \|\mathbf{m}^{\setminus n}\|^2 + Dv^{\setminus n}

となる。また、

\begin{aligned} \nabla_{v^{\setminus n}} \ln Z_n &= \frac{1}{Z_n} (1 - w)\mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I}) \left(\frac{1}{2(v^{\setminus n} + 1)^2}\|\mathbf{x}_n - \mathbf{m}^{\setminus n}\|^2 - \frac{D}{2(v^{\setminus n} + 1)}\right) \\ &= \rho_n \left(\frac{1}{2(v^{\setminus n} + 1)^2}\|\mathbf{x}_n - \mathbf{m}^{\setminus n}\|^2 - \frac{D}{2(v^{\setminus n} + 1)}\right) \\ \end{aligned}

以上の結果と、

v\mathbf{I} = \mathbb{E}(\boldsymbol{\theta}\boldsymbol{\theta}^{\mathrm{T}}) - \mathbb{E}(\boldsymbol{\theta})\mathbb{E}(\boldsymbol{\theta^{\mathrm{T}}})

を組み合わせることで、(10.218)式を得る。

Discussion

Choiko

演習問題10.28について、μkのくくり出しの部分とその他の項のくくり出しのところですが、平方完成により外出しされている部分にΠが必要かと思います。私の勘違いでしたらスルーして下さいませ。

DR YOSHITAKA

もう少し具体的にお知らせいただけますと助かります。

Choiko

まず、(10.57)のディリクレ分布を導いた後の部分ですが、
「残りの項のうち、μkに依存する項のみをくくり出すと、」の４行下の式部分（”おまけ”の上へ11行目）はexpの前に（”１〜Kをかける”という記号としての）Πをつけるか、もしくはexp（）内に（”１〜Kを足す”という記号としての）Σをつける必要があると思います。当該部分の２行上と３行上にΣ記号がありますが、その外側を{}で囲むのではなく内側を{}で囲むべきかと（この点も先に触れるべきでした）。くくり出す元の式がそうなっております。
同じく
（10.59）のガウス分布を導いた後の部分ですが、
「最後にその他の項を、くくり出すと」の２行下の式部分（”おまけ”の上へ７行目）も同様と思います。

DR YOSHITAKA

こちらでいかがでしょうか？

Choiko

ご修正いただき、大変恐縮です。
２点だけ、ございます。
・(10.57)のディリクレ分布を導いた後の、「残りの項のうち、μkに依存する項のみをくくり出すと」のすぐ下に１行目から３行目までの部分ですが、-1/2の右にある”{”はΣのすぐ右に記載されるのが良いと考えます。
※記載の仕方として、Σ{a+b}≠Σa+bという前提での話です。
・「残りの項のうち、μkに依存する項のみをくくり出すと」の下に5行目と７行目ですが、ΣをΠで外出ししていますのでΣを除外すべきところ、残ったままとなっているのではないかと思います。

DR YOSHITAKA

これでいかがでしょうか？

Choiko

お忙しい中、ご修正下さり、誠にありがとうございました。

Choiko

演習問題10.34のPreparationの”後で使う式変形”の3行目ですが、Sに付されている”−１”（逆行列）は不要と思いますがいかがでしょうか。