3.1 (★)
ベルヌーイ分布
\operatorname{Bern}(x \mid \mu)=\mu^x(1-\mu)^{1-x} \tag{3.2}
には次の特性があることを検証せよ.
\begin{align*}
\sum_{x=0}^1 p(x \mid \mu) & =1 \tag{3.191}\\
\mathbb{E}[x] & =\mu \tag{3.192}\\
\operatorname{var}[x] & =\mu(1-\mu) \tag{3.193}
\end{align*}
ベルヌーイ分布に従う二値確率変数xのエントロピー\mathrm{H}[x]が次式で与えられることを示せ.
\mathrm{H}[x] = -\mu \ln \mu -(1 -\mu) \ln(1 -\mu) \tag{3.194}
\operatorname{Bern}(x\mid\mu)=\mu^x(1-\mu)^{1-x}であるから、
\sum_{x=0}^{1} p(x | \mu)=\mu^{0}(1-\mu)^{1}+\mu^{1}(1-\mu)^{0}=1
\mathbb{E}[x]=\sum_{x=0}^{1}x\mu^x(1-\mu)^{1-x} =\mu
\operatorname{var}[x] = \mathbb{E}[x^2]-(\mathbb{E}[x])^2=\mu-\mu^2=\mu(1-\mu)
また、エントロピー\mathrm{H}[x]については
\begin{aligned}
\mathrm{H}[x] &=-\sum_{x=0}^{1} \operatorname{Bern}(x | \mu) \cdot \ln \operatorname{Bern}(x | \mu) \\
&=-\sum_{x=0}^{1}\left(\mu^{x}(1-\mu)^{1-x} \ln \mu^{x}(1-\mu)^{1-x}\right) \\
&=-((1-\mu) \cdot \ln (1-\mu)+\mu \ln \mu) \\ &=-\mu \ln \mu-(1-\mu) \ln (1-\mu)
\end{aligned}
3.2 (★★)
ベルヌーイ分布の(3.2)の式は,xの二つの値について対称になっていない. しかしながら,x \in \{-1,1\}を用いた対称な,次式の等価表現の方が便利なこともある.
p(x \mid \mu)=\left(\frac{1-\mu}{2}\right)^{(1-x) / 2}\left(\frac{1+\mu}{2}\right)^{(1+x) / 2} \tag{3.195}
ただし,\mu \in [-1,1]. この分布(3.195)が正規化されていることを示し,その平均,分散,およびエントロピーを求めよ.
x \in\{-1,1\}の二値のときに正規化されていることをまず示す。
\begin{aligned} \sum_{x=-1}^{1} p(x | \mu) d x &=p(x=-1 | \mu)+p(x=1 | \mu) \\ &=\left(\frac{1-\mu}{2}\right)+\left(\frac{1+\mu}{2}\right)=1 \end{aligned}
続いて、\mathbb{E}[x], \operatorname{var}[x], \mathrm{H}[x]について、
\begin{aligned}
\mathbb{E}[x] &=\sum x p(x | \mu)=(-1) \frac{1-\mu}{2}+\frac{1+\mu}{2}=\mu \\
\operatorname{var}[x] &=\mathbb{E}\left[x^{2}\right]-\{\mathbb{E}[x]\}^{2}=\left(\frac{1-\mu}{2}\right)+\left(\frac{1+\mu}{2}\right)-\mu^{2}=1-\mu^{2} \\
\textrm{H}[x] &=-\sum p(x | \mu) \ln p(x | \mu) \\
&=-\left(\frac{1-\mu}{2} \ln \frac{1-\mu}{2}+\frac{1+\mu}{2} \ln \frac{1+\mu}{2}\right) \end{aligned}
3.3 (★★)
この演習問題では,二項分布
\operatorname{Bin}(m \mid N, \mu)=\binom{N}{m} \mu^{m}(1-\mu)^{N-m} \tag{3.9}
この分布が正規化されていることを証明する.まず,総数がN個の対象から,m個の同じものを選ぶ組合せの数の定義
\binom{N}{m} \equiv \frac{N!}{(N-m)!m!} \tag{3.10}
を用いて,次式を示せ.
\binom{N}{m}+\binom{N}{m-1}=\binom{N+1}{m} \tag{3.196}
この結果を用いて,数学的帰納法で次式を証明せよ.
(1+x)^{N}=\sum_{m=0}^{N}\binom{N}{m} x^{m} \tag{3.197}
これを二項定理(binomial theorem) といい,任意の実数xについて成立する.最後に,二項分布が次式のように正規化されていることを示せ.これには(1-\mu)^Nを和の外に出してから,二項定理を適用する.
\sum_{m=0}^{N}\binom{N}{m} \mu^{m}(1-\mu)^{N-m}=1 \tag{3.198}
(3.196)を示す。
\begin{aligned}\binom{N}{m}+\binom{N}{m-1} &=\frac{N !}{m !(N-m) !}+\frac{N !}{(m-1) !(N-m+1)!} \\
&=\frac{N !}{(m-1) !(N-m) !}\left(\frac{1}{m}+\frac{1}{N-m+1}\right) \\
&=\frac{N !}{(m-1) !(N-m) !}\left(\frac{N+1}{m(N-m+1)}\right) \\
&=\frac{(N+1) !}{m !(N+1-m) !}=\binom{N+1}{m} \end{aligned}
二項定理(3.197)を帰納法で示す。
N=1のとき、
(左辺)=(1+x)=\binom{1}{0} x^{0}+\binom{1}{1} x^{1}=\sum_{n=0}^{1}\binom{1}{m} x^{m}
であり成立する。次に、N=kにおいて式(3.197)が成立すると仮定したとき、N=k+1のときは
\begin{aligned}(1+x)^{k+1} &=(1+x) \sum_{m=0}^{k}\binom{k}{m} x^{m}=\sum_{m=0}^{k}\binom{k}{m} x^{m}+x \sum_{m=0}^{k}\binom{k}{m} x^{m} \\ &=1+\sum_{m=1}^{k}\left\{\binom{k}{m}+\binom{k}{m-1}\right\} x^{m}+x^{k+1} \\ &=1+\sum_{m=1}^{k}\binom{k+1}{m} x^{m}+x^{k+1} \\ &=\sum_{m=0}^{k+1}\binom{k+1}{m} x^{m} \end{aligned}
よって、N=k+1のときでも成立するので、帰納法より式(3.197)は示された。
最後に正規化の式(3.198)について、二項定理から
\left\{(1-\mu)+\mu\right\}^N=\sum_{m=0}^{N}\binom{N}{m} \mu^m (1-\mu)^{N-m}
が成立する。ここで、(左辺)=1^N=1なので、式(3.198)は成立する。
3.4 (★★)
二項分布の平均が
\mathbb{E}[m] = \sum_{m=0}^{N}m\ \mathrm{Bin}(m \mid N, \mu) = N \mu \tag{3.11}
であることを示せ.これには,正規化条件
\sum_{m=0}^{N}\binom{N}{m} \mu^{m}(1-\mu)^{N-m}=1 \tag{3.198}
の両辺を\muで微分し,これを整理してmの平均を求める.同様に,(3.198)の両辺を\muについて2階微分し,二項分布の平均(3.11)も用いて,二項分布の分散が
\operatorname{var}[m] = \sum_{m=0}^{N} (m - \mathbb{E}[m])^2 \mathrm{Bin}(m \mid N, \mu) = N \mu(1-\mu) \tag{3.12}
となることを証明せよ.
(3.198)の両辺を\muで微分すると
\begin{gathered}
\sum_{m=0}^{N}\binom{N}{m} \left(m \mu^{m-1}(1-\mu)^{N-m}-(N-m) \mu^{m}(1-\mu)^{N-m-1}\right)=0 \\
\sum_{m=0}^{N}\binom{N}{m} \mu^{m-1}(1-\mu)^{N-m-1}(m(1-\mu)-(N-m)\mu)=0 \\
\sum_{m=0}^{N}\binom{N}{m} \mu^{m-1}(1-\mu)^{N-m-1}(m-N \mu)=0 \\
\sum_{m=0}^{N}\binom{N}{m} m \mu^{m-1}(1-\mu)^{N-m-1} = N\mu \sum_{m=0}^{N}\binom{N}{m} \mu^{m-1}(1-\mu)^{N-m-1}
\end{gathered}
両辺に\mu(1-\mu)をかけると
\underbrace{\sum_{m=0}^{N}\binom{N}{m} m \mu^{m}(1-\mu)^{N-m}}_{\mathbb E[m]} = N\mu \underbrace{\sum_{m=0}^{N}\binom{N}{m} \mu^{m}(1-\mu)^{N-m}}_{1}
よって\mathbb E[m]=N\muが示された。
分散について,
\begin{aligned} \operatorname{var}[m] &=\mathbb{E}\left[m^{2}\right]-(\mathbb{E}[m])^{2} \\ &=\mathbb{E}[m(m-1)]+\mathbb{E}[m]-(\mathbb{E}[m])^{2} \end{aligned}
であるから、\mathbb{E}[m(m-1)]の値を求める。
\begin{aligned} E[m(m-1)] &=\sum_{m=0}^{N} m(m-1)\binom{N}{m} \mu^{m}(1-\mu)^{N-m} \\
&=\sum_{m=2}^{N} m(m-1)\binom{N}{m} \mu^{m}(1-\mu)^{N-m} \\ &=\sum_{m=2}^{N} m(m-1) \frac{N(N-1)(N-2) !}{(N-m) ! m(m-1)(m-2) !} \mu^{m}(1-\mu)^{N-m} \\
&=N(N-1) \sum_{m=2}^{N}\binom{N-2}{m-2} \mu^{m}(1-\mu)^{N-m} \\
&=N(N-1) \mu^{2} \underbrace{\sum_{m-2=0}^{N-2}\binom{N-2}{m-2} \mu^{m-2}(1-\mu)^{N-2-(m-2)}}_1 \\
&=N(N-1) \mu^{2} \end{aligned}
よって
\begin{aligned} \operatorname{var}[m] &=N(N-1) \mu^{2}+N \mu-(N \mu)^{2} \\ &=N \mu(1-\mu) \end{aligned}
これは(3.12)と一致する。
3.5 (★)
多変量ガウス分布
\mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\bm{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\bm{\mu})\right\} \tag{3.26}
の最頻値が\bm{\mu}で与えられることを示せ.
多変量ガウス分布(3.26)について、これを\mathbf{x}で偏微分する.
\frac{\partial}{\partial \mathbf{x}} \mathbf{x}^\mathrm{T}\mathbf{B}\mathbf{x} = (\mathbf{B}+\mathbf{B}^\mathrm{T})\mathbf{x} (Matrix Cookbook 81参照)が成立するのと、\mathbf{\Sigma}が対称行列であることを用いて
\begin{aligned}
\frac{\partial}{\partial \mathbf{x}}\mathcal{N}\left(\mathbf{x} \mid \mu, \mathbf{\Sigma}\right) &= -\frac{1}{2}\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}\right)\nabla_{\mathbf{x}}\{(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\}\\
&=-\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}\right)\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})
\end{aligned}
となり最大値は\mathbf{x}=\boldsymbol{\mu}のときであり、このときモードをとる。
3.6 (★★)
\mathbf{x}は,平均が\bm{\mu}で共分散が\mathbf{\Sigma}のガウス分布に従うとする. このとき,線形変換した変数\mathbf{A}\mathbf{x}+ \mathbf{b}もガウス分布に従うことを示せ.また,その平均と分散を求めよ.
\mathbf{x} \sim p_{\mathbf{x}}(\mathbf{x}) = \mathcal{N}(\bm{\mu}, \mathbf{\Sigma})とする.線形変換した変数\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}を考え、これがガウス分布に従うことを示す.
- case 1: \mathbf{A}が正則行列である場合
ここで\mathbf{y}は\mathbf{x}と同じ次元のベクトルであると仮定する.この場合\mathbf{A}は正方行列である必要がある.さらに、\mathbf{A}が正則行列(=逆行列が存在する)と仮定する。この場合は
\mathbf{x} = \mathbf{A}^{-1}(\mathbf{y} - \mathbf{b})
と、変数変換は(2.76)式のようにp_{\mathbf{y}}(\mathbf{y}) = p_{\mathbf{x}}(\mathbf{x})|\det \mathbf{J}|を利用して
\begin{aligned}
p_{\mathbf{y}}(\mathbf{y}) &= p_{\mathbf{x}}(\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b})) \cdot \left| \det(\mathbf{A}^{-1}) \right| \\
&= |\mathbf{A}|^{-1} p_{\mathbf{x}}(\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b}))
\end{aligned}
となる。ここで、p_{\mathbf{x}}(\mathbf{x})は\mathbf{x}のガウス分布の確率密度関数であるため、
p_{\mathbf{x}}(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \bm{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu})\right)
p_{\mathbf{y}}(\mathbf{y})に代入すると、
\begin{aligned}
p_{\mathbf{y}}(\mathbf{y}) &= |\mathbf{A}|^{-1} \frac{1}{(2\pi)^{d/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b}) - \bm{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b}) - \bm{\mu})\right) \\
&= \frac{1}{(2\pi)^{d/2} |(\mathbf{A}^{\mathrm{T}}\mathbf{A})^{1/2}||\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\underbrace{\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b}) - \bm{\mu})^{\mathrm{T}} \mathbf{A}^{\mathrm{T}}} \underbrace{(\mathbf{A}^{\mathrm{T}})^{-1} \mathbf{\Sigma}^{-1} \mathbf{A}^{-1}}_{=(\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}})^{-1}} \underbrace{\mathbf{A} (\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b}) - \bm{\mu})}_{=(\mathbf{y} - \mathbf{A}\bm{\mu} - \mathbf{b})}\right) \\
&= \frac{1}{(2\pi)^{d/2} |\mathbf{A}^{\mathrm{T}}\mathbf{A}\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{A}(\mathbf{A}^{-1}(\mathbf{y} - \mathbf{b}) - \bm{\mu}))^{\mathrm{T}} (\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}})^{-1} (\mathbf{y} - (\mathbf{A}\bm{\mu} + \mathbf{b}))\right) \\
&= \frac{1}{(2\pi)^{d/2} |\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{y} - (\mathbf{A}\bm{\mu} + \mathbf{b}))^{\mathrm{T}} (\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}})^{-1} (\mathbf{y} - (\mathbf{A}\bm{\mu} + \mathbf{b}))\right)
\end{aligned}
なお、途中で行列についての定理
\begin{align*}
|\mathbf{AB}| &= |\mathbf{A}||\mathbf{B}| \tag{A.12} \\
(\mathbf{ABC})^{-1} &= \mathbf{C}^{-1}\mathbf{B}^{-1}\mathbf{A}^{-1} \tag{A.3}
\end{align*}
を利用している。
この式は、\mathbf{y}が平均\mathbf{A}\bm{\mu} + \mathbf{b}、共分散\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}}のガウス分布に従うことを示している。したがって、線形変換された変数\mathbf{y}もガウス分布に従い、その平均と共分散はそれぞれ\mathbf{A}\bm{\mu} + \mathbf{b}と\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}}である。
- case 2: \mathbf{A}が正則行列でない場合または正方行列でない場合
正則行列または正方行列でない場合、密度変換ではなく特性関数を用いる証明が一般的かもしれない。\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}の特性関数は
\begin{aligned}
\phi_{\mathbf{y}}(\mathbf{t}) &= \mathbb{E}[e^{i\mathbf{t}^{\mathrm{T}}\mathbf{y}}] \\
&= \mathbb{E}[e^{i\mathbf{t}^{\mathrm{T}}(\mathbf{A}\mathbf{x} + \mathbf{b})}] \\
&= e^{i\mathbf{t}^{\mathrm{T}}\mathbf{b}} \mathbb{E}[e^{i(\mathbf{A}^{\mathrm{T}}\mathbf{t})^{\mathrm{T}}\mathbf{x}}] \\
&= e^{i\mathbf{t}^{\mathrm{T}}\mathbf{b}} \exp\left(i(\mathbf{A}^{\mathrm{T}}\mathbf{t})^{\mathrm{T}}\bm{\mu} - \frac{1}{2} (\mathbf{A}^{\mathrm{T}}\mathbf{t})^{\mathrm{T}} \mathbf{\Sigma} (\mathbf{A}^{\mathrm{T}}\mathbf{t})\right) \\
&= \exp\left(i\mathbf{t}^{\mathrm{T}}\mathbf{b} + i\mathbf{t}^{\mathrm{T}}\mathbf{A}\bm{\mu} - \frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}} \mathbf{t}\right)
\end{aligned}
つまり、\mathbf{y}の特性関数は、平均\mathbf{A}\bm{\mu} + \mathbf{b}、共分散\mathbf{A}\mathbf{\Sigma}\mathbf{A}^{\mathrm{T}}のガウス分布の特性関数と一致する。したがって、\mathbf{y}はガウス分布に従う。
3.7 (★★★)
二つのガウス分布q(\mathbf{x}) = \mathcal{N}(\mathbf{x} \mid \bm{\mu}_q, \mathbf{\Sigma}_q)とp(\mathbf{x}) = \mathcal{N}(\mathbf{x} \mid \bm{\mu}_p, \mathbf{\Sigma}_p)の間のカルバックーライブラーダイバージェンスが次式で与えられることを示せ.
\begin{aligned}
& \operatorname{KL}(q(\mathbf{x}) \| p(\mathbf{x})) \\
& =\frac{1}{2}\left\{\ln \frac{\left|\mathbf{\Sigma}_p\right|}{\left|\mathbf{\Sigma}_q\right|}-D+\operatorname{Tr}\left(\mathbf{\Sigma}_p^{-1} \mathbf{\Sigma}_q\right)+\left(\bm{\mu}_p-\bm{\mu}_q\right)^{\mathrm{T}} \mathbf{\Sigma}_p^{-1}\left(\bm{\mu}_p-\bm{\mu}_q\right)\right\} \tag{3.199}
\end{aligned}
ただし,\operatorname{Tr}(\cdot)は行列のトレースであり,Dは\mathbf{x}の次元数である.
(2.100)式のpとqに注意すると以下のようにまず書ける。
\mathrm{KL}(q(\mathbf{x}) \| p(\mathbf{x})) = -\int q(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x}+\int q(\mathbf{x}) \ln q(\mathbf{x}) d\mathbf{x}
に分解できる。
この第2項は後の演習問題3.9で求められるように、
-\frac{1}{2} \ln |\mathbf{\Sigma}_{q}| - \frac{D}{2}\left\{ 1 + \ln (2 \pi) \right\} \tag{1}
である。そこで、第1項を求める。
\begin{aligned}
& -\int q(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x} \\
&=\int \mathcal{N}(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}) \cdot \frac{1}{2}\left\{D \ln (2 \pi)+\ln |\mathbf{\Sigma}_{p}|+(\mathbf{x}-\bm{\mu}_{p})^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1}(\mathbf{x}-\bm{\mu}_{p})\right\} d \mathbf{x} \\
&=\frac{1}{2}\left\{(D \ln (2 \pi)+\ln |\mathbf{\Sigma}_{p}|) \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}) d \mathbf{x}\right\}+\frac{1}{2} \int \mathcal{N}\left(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}\right) \operatorname{Tr}\left[(\mathbf{x}-\bm{\mu}_{p})^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} (\mathbf{x}-\bm{\mu}_{p})\right] d\mathbf{x} \\
&\hspace{2em} (\because 二次形式はスカラーなので \mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}} = \operatorname{Tr}[\mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}}] \\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{\Sigma}_{p}|\}+\frac{1}{2} \int \mathcal{N}\left(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}\right) \operatorname{Tr}\left[(\mathbf{x}-\bm{\mu}_{p})(\mathbf{x}-\bm{\mu}_{p})^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1}\right] d \mathbf{x} \\
&\hspace{2em} (\because トレースの循環性\operatorname{Tr}[\mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}}] = \operatorname{Tr}[\mathbf{xx^{\mathrm{T}}\mathbf{\Sigma}}] )\\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{\Sigma}_{p}|\}
+\frac{1}{2}\left\{\left(\operatorname{Tr}\left[\int \mathcal{N}\left(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}\right) \mathbf{xx}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1}d \mathbf{x} \right]
-\operatorname{Tr}\left[\int \mathcal{N}\left(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}\right) \mathbf{x}\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1}d \mathbf{x} \right]-\operatorname{Tr}\left[\int \mathcal{N}(\mathbf{x} \mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}) \bm{\mu}_{p} \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} d \mathbf{x} \right]
+\operatorname{Tr}\left[\int \mathcal{N}\left(\mathbf{x}\mid \bm{\mu}_{q}, \mathbf{\Sigma}_{q}\right) \bm{\mu}_{p}\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} d \mathbf{x}\right] \right) \right\} \\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{\Sigma}_{p}|\}
+\frac{1}{2}\left\{\operatorname{Tr}\left[\left(\bm{\mu}_{q}\bm{\mu}_{q}^{\mathrm{T}}+\mathbf{\Sigma}_{q}\right) \mathbf{\Sigma}_{p}^{-1}\right]
-\operatorname{Tr} \left[\bm{\mu}_{q} \bm{\mu}_{p}^{\mathrm{T}}\mathbf{\Sigma}_{p}^{-1}\right]
-\operatorname{Tr}\left[\bm{\mu}_{p} \bm{\mu}_{q}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1}\right]
+\operatorname{Tr}\left[\bm{\mu}_{p}\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1}\right] \right\}\\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{\Sigma}_{p}|\}+\frac{1}{2}\left\{\operatorname{Tr}\left[\left(\bm{\mu}_{q}\bm{\mu}_{q}^{\mathrm{T}}+\mathbf{\Sigma}_{q}\right)\mathbf{\Sigma}_{p}^{-1}\right]
-\bm{\mu}_{p}^{\mathrm{T}}\mathbf{\Sigma}_{p}^{-1}\bm{\mu}_{q}
-\bm{\mu}_{q}^{\mathrm{T}}\mathbf{\Sigma}_{p}^{-1}\bm{\mu}_{p}
+\bm{\mu}_{p}^{\mathrm{T}}\mathbf{\Sigma}_{p}^{-1}\bm{\mu}_{p}
\right\}\hspace{2em} (\because \operatorname{Tr}[\mathbf{xx^{\mathrm{T}}\mathbf{\Sigma}}] = \mathbf{x}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x} )
\end{aligned}
これと(1)の結果から、
\begin{aligned}
\mathrm{KL}(q(\mathbf{x}) \| p(\mathbf{x}))
&=-\int p(\mathbf{x}) \ln q(\mathbf{x}) d\mathbf{x}+\int p(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x} \\
&= \frac{1}{2}\left(\ln \frac{|\mathbf{\Sigma}_{p}|}{|\mathbf{\Sigma}_{q}|} -D +\operatorname{Tr}\left[\left(\bm{\mu}_{q}\bm{\mu}_{q}^{\mathrm{T}}+\mathbf{\Sigma}_{q}\right)\mathbf{\Sigma}_{p}^{-1}\right]
-\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{q}
-\bm{\mu}_{q}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{p}
+\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{p}\right) \\
&= \frac{1}{2}\left(\ln \frac{|\mathbf{\Sigma}_{p}|}{|\mathbf{\Sigma}_{q}|} -D +\operatorname{Tr}\left(\mathbf{\Sigma}_{q}\mathbf{\Sigma}_{p}^{-1}\right)
+\bm{\mu}_{q}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{q}
-\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{q}
-\bm{\mu}_{q}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{p}
+\bm{\mu}_{p}^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} \bm{\mu}_{p}\right) \\
&= \frac{1}{2}\left(\ln \frac{|\mathbf{\Sigma}_{p}|}{|\mathbf{\Sigma}_{q}|} -D +\operatorname{Tr}\left(\mathbf{\Sigma}_{p}^{-1}\mathbf{\Sigma}_{q}\right)
+(\bm{\mu}_{q}-\bm{\mu}_{p})^{\mathrm{T}} \mathbf{\Sigma}_{p}^{-1} (\bm{\mu}_{q}-\bm{\mu}_{p})\right) \quad (\because \operatorname{Tr}(\mathbf{AB}) = \operatorname{Tr}(\mathbf{BA}))
\end{aligned}
となる。これで(3.199)式が示された。
3.8 (★★)
この演習問題では,共分散が与えられているときに,エントロピーを最大にする多変量分布はガウス分布であることを示す.分布p(\mathbf{x})のエントロピーは次式で与えられる.
\mathrm{H}[\mathbf{x}] = -\int p(\mathbf{x}) \ln p(\mathbf{x}) \, d\mathbf{x} \tag{3.200}
そして,分布p(\mathbf{x})が正規化されており,平均と共分散が固定されているという次式の制約の下で,すべての分布p(\mathbf{x})の中で\mathrm{H}[\mathbf{x}]を最大化するものを求める.
\begin{align*}
& \int p(\mathbf{x}) \mathrm{d} \mathbf{x}=1 \tag{3.201}\\
& \int p(\mathbf{x}) \mathbf{x} \mathrm{d} \mathbf{x}=\bm{\mu} \tag{3.202}\\
& \int p(\mathbf{x})(\mathbf{x}-\bm{\mu})(\mathbf{x}-\bm{\mu})^{\mathrm{T}} \mathrm{~d} \mathbf{x}=\mathbf{\Sigma} \tag{3.203}
\end{align*}
これには,制約(3.201), (3.202), および(3.203)を満たすためにラグランジュ乗数を導入し,(3.200)を最大化する関数を変分法で求める.そして,尤度を最大化する分布がガウス分布(3.26)であることを示せ.
ラグランジュ乗数を用いて、\mathrm{H}[\mathbf{x}]を最大化する、そのため、ラグランジュ乗数として、定数\lambda、D次元ベクトル\mathbf{m}とD\times D次元の行列\mathbf{L}を定義して代入すると
\begin{aligned}
\widetilde{H}[p] &= -\int{p(\mathbf{x})\ln{p(\mathbf{x})}}\mathrm{d}\mathbf{x} + \lambda\left(\int{p(\mathbf{x})}\mathrm{d}\mathbf{x}-1\right)\\
&+ \mathbf{m}^{\mathrm{T}} \left(\int{p(\mathbf{x})\mathbf{x}}\mathrm{d}\mathbf{x}-\bm{\mu}\right)\\
&+ \operatorname{Tr}\left\{\mathbf{L}\int{p(\mathbf{x})(\mathbf{x} - \bm{\mu})(\mathbf{x}-\bm{\mu})^{\mathrm{T}}}\mathrm{d}\mathbf{x} - \mathbf{\Sigma}\right\}\\
\end{aligned}
となる.
付録Bに書かれてある変分法を用いて、p(\mathbf{x})についての\widetilde{H}[p]の汎関数導関数を求める。
\frac{\mathrm{d}\widetilde{H}[p(\mathbf{x})]}{\mathrm{d}p(\mathbf{x})} = -1-\ln{p(\mathbf{x})} + \lambda + \mathbf{m}^{\mathrm{T}} \mathbf{x} + \operatorname{Tr}\{\mathbf{L}(\mathbf{x} - \bm{\mu})(\mathbf{x} - \bm{\mu})^{\mathrm{T}}\}
p(\mathbf{x})についての\widetilde{H}[p(\mathbf{x})]の汎関数導関数が0であるとき、\widetilde{H}[p]は最大化されるので、
\begin{aligned}
\ln{p(\mathbf{x})} &= -1+ \lambda + \mathbf{m}^{\mathrm{T}} \mathbf{x} + \operatorname{Tr}\{\mathbf{L}(\mathbf{x} - \bm{\mu})(\mathbf{x} - \bm{\mu})^{\mathrm{T}}\}\\
p(\mathbf{x}) &= \mathrm{exp}\{\lambda -1+ \mathbf{m}^{\mathrm{T}} \mathbf{x} + \operatorname{Tr}\{\mathbf{L}(\mathbf{x} - \bm{\mu})(\mathbf{x} - \bm{\mu})^{\mathrm{T}}\}\}\\
&= \mathrm{exp}\left\{\lambda - 1 + \mathbf{y}^{\mathrm{T}} \mathbf{L}\mathbf{y} + \bm{\mu} ^{\mathrm{T}} \mathbf{m} - \frac{1}{4}\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}\right\}\\
\end{aligned}
となる,ただし\mathbf{y} = \mathbf{x} - \bm{\mu} + \frac{1}{2}\mathbf{L}^{-1}\mathbf{m}.
またp(\mathbf{x})は制約(3.201),(3.202),および(3.203)を満たし,p(\mathbf{x})を(3.201),(3.202)に代入すると
\begin{gathered}
\int{\mathrm{exp}\left\{\lambda - 1 + \mathbf{y}^{\mathrm{T}} \mathbf{L}\mathbf{y} + \bm{\mu} ^{\mathrm{T}} \mathbf{m} - \frac{1}{4}\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}\right\}}\mathrm{d}\mathbf{y} = 1\\
\int{\mathrm{exp}\left\{\lambda - 1 + \mathbf{y}^{\mathrm{T}} \mathbf{L}\mathbf{y} + \bm{\mu} ^{\mathrm{T}} \mathbf{m} - \frac{1}{4}\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}\right\}\left(\mathbf{y} + \bm{\mu} - \frac{1}{2}\mathbf{L}^{-1}\mathbf{m}\right)}\mathrm{d}\mathbf{y} = \bm{\mu}\\
\end{gathered}
\begin{aligned}
\left(\bm{\mu} - \frac{1}{2}\mathbf{L}^{-1}\mathbf{m}\right)\int{\mathrm{exp}\left\{\lambda - 1 + \mathbf{y}^{\mathrm{T}} \mathbf{L}\mathbf{y} + \bm{\mu} ^{\mathrm{T}} \mathbf{m} - \frac{1}{4}\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}\right\}}\mathrm{d}\mathbf{y} \\+ \int{\mathrm{exp}\left\{\lambda - 1 + \mathbf{y}^{\mathrm{T}} \mathbf{L}\mathbf{y} + \bm{\mu} ^{\mathrm{T}} \mathbf{m} - \frac{1}{4}\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}\right\}\mathbf{y}}\mathrm{d}\mathbf{y} = \bm{\mu}\\
\bm{\mu} - \frac{1}{2}\mathbf{L}^{-1}\mathbf{m} = \bm{\mu}\\
\end{aligned}
となって,\mathbf{m}=\mathbf{0}であることが分かって,p(\mathbf{x}) = \mathrm{exp}\{\lambda - 1 + (\mathbf{x}-\bm{\mu})^{\mathrm{T}} \mathbf{L}(\mathbf{x}-\bm{\mu})\}となる.
さらに,(3.203)に代入すると
\begin{aligned}
\int{\mathrm{exp}\left\{\lambda - 1 + (\mathbf{x} - \bm{\mu})\mathbf{L}(\mathbf{x} - \bm{\mu})^{\mathrm{T}}\right\}(\mathbf{x} - \bm{\mu})(\mathbf{x} - \bm{\mu})^{\mathrm{T}}}\mathrm{d}\mathbf{x} &= \mathbf{\Sigma}\\
\end{aligned}
となる.\mathbf{z} = \mathbf{x} - \bm{\mu}で書き換えると
\begin{aligned}
\int{\mathrm{exp}\left\{\lambda - 1 + \mathbf{z}\mathbf{L}\mathbf{z}^{\mathrm{T}}\right\}\mathbf{z}\mathbf{z}^{\mathrm{T}}}\mathrm{d}\mathbf{z} &= \mathbf{\Sigma}\\
\mathrm{exp}(\lambda - 1)\int{\mathrm{exp}\left\{\mathbf{z}\mathbf{L}\mathbf{z}^{\mathrm{T}}\right\}\mathbf{z}\mathbf{z}^{\mathrm{T}}}\mathrm{d}\mathbf{z} &= \mathbf{\Sigma}\\
\end{aligned}
となる.(3.48)と比較すると,\displaystyle \mathbf{L} = -\frac{1}{2} \mathbf{\Sigma}^{-1}であることがわかる.
またここで,\mathrm{exp}(\lambda - 1)は正規化されていることを保証しているため
\begin{aligned}
\mathrm{exp}(\lambda - 1) &= \frac{1}{(2\pi)^\frac{1}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\\
\lambda &= \ln\left\{\frac{1}{(2\pi)^\frac{1}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\right\} + 1
\end{aligned}
となる.
3.9 (★★★)
多変量ガウス分布\mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})のエントロピーが次式で与えられることを示せ.
\mathrm{H}[\mathbf{x}] = -\frac{1}{2} \ln |\mathbf{\Sigma}| + \frac{D}{2}(1 + \ln(2\pi)) \tag{3.204}
ただし, Dは\mathbf{x}の次元数である.
エントロピーの定義の式(1.104)に直接ガウス分布の式を代入して式を変形していく。ガウス分布が正規化されていること\displaystyle \int \mathcal{N}(\mathbf{x} | \bm{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} = 1を利用する。
\begin{aligned}
\mathrm{H}[\mathbf{x}]
&=-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\\
&=-\int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \ln \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} \\
&= \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \cdot \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + (\mathbf{x} - \bm{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) \} \mathrm{d} \mathbf{x} \\
&= \frac{1}{2} \left\{ D \ln(2 \pi) \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} + \ln |\mathbf{\Sigma}| \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} + \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \bm{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) \mathrm{d} \mathrm{x} \right\} \\
&= \frac{1}{2} \left\{ D \ln(2 \pi) \cdot 1 + \ln |\mathbf{\Sigma}| \cdot 1 + \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \bm{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) \mathrm{d} \mathbf{x} \right\}
\end{aligned}
ここで、第3項\displaystyle \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \bm{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) \mathrm{d} \mathbf{x}について、二次形式とトレースの関係の式\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x} = \operatorname{Tr}(\mathbf{Axx}^{\mathrm{T}})を使って変形する。これは任意のm \times n行列\mathbf{M}とn \times m行列\mathbf{N}に対して\operatorname{Tr}(\mathbf{MN}) = \operatorname{Tr}(\mathbf{NM})が成立する(統計のための行列代数 上巻 第5章 補助定理5.2.1)ことから容易に示せる(下記)。また、トレースの値はスカラーであり、任意のスカラーkと任意の正方行列\mathbf{A}, \mathbf{B}に対して以下の性質(トレースの線形性)が成立することを利用する。
\begin{aligned}
\operatorname{Tr}(k\mathbf{A}) &= k\operatorname{Tr}(\mathbf{A}) \\
\operatorname{Tr}(\mathbf{A}+\mathbf{B}) &= \operatorname{Tr}({\mathbf{A}}) + \operatorname{Tr}({\mathbf{B}})
\end{aligned}
また、\mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})はスカラーであるので、\displaystyle \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \operatorname{Tr}(\mathbf{A}) = \operatorname{Tr}(\mathbf{\mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) A})と変形できる。
以上から、
\begin{aligned}
& \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \bm{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) \mathrm{d} \mathbf{x} \\
=& \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathrm{Tr
}\left( \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) (\mathbf{x} - \bm{\mu})^\mathrm{T} \right)\mathrm{d} \mathbf{x} \\
=& \int \operatorname{Tr} \left[ \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \left( \mathbf{\Sigma}^{-1} (\mathbf{x} - \bm{\mu}) (\mathbf{x} - \bm{\mu})^\mathrm{T} \right)\right]\mathrm{d} \mathbf{x} \\
=& \int \operatorname{Tr} \left[ \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) (\mathbf{x} \mathbf{x}^\mathrm{T} - \mathbf{x} \bm{\mu}^\mathrm{T} - \bm{\mu} \mathbf{x}^\mathrm{T} + \bm{\mu} \bm{\mu}^\mathrm{T}) \mathbf{\Sigma}^{-1} \right] \mathrm{d} \mathbf{x} \hspace{1em} (\because \operatorname{Tr}(\mathbf{MN}) = \operatorname{Tr}(\mathbf{NM})) \\
=& \int \operatorname{Tr} \left[ \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) (\mathbf{x} \mathbf{x}^\mathrm{T} - 2\mathbf{x} \bm{\mu}^\mathrm{T} + \bm{\mu} \bm{\mu}^\mathrm{T}) \mathbf{\Sigma}^{-1} \right] \mathrm{d} \mathbf{x} \hspace{1em} (\because \operatorname{Tr}(\mathbf{x}\bm{\mu}^{\mathrm{T}}) = \operatorname{Tr}(\bm{\mu}\mathbf{x}^{\mathrm{T}}))\\
=& \int \operatorname{Tr} [ \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathbf{xx}^\mathrm{T} \mathbf{\Sigma}^{-1} ] \mathrm{d} \mathbf{x}
-2 \int \operatorname{Tr} [ \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})\mathbf{x} \bm{\mu}^\mathrm{T} \mathbf{\Sigma}^{-1} ]\mathrm{d} \mathbf{x}
+ \int \operatorname{Tr} [ \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})\bm{\mu} \bm{\mu}^\mathrm{T} \mathbf{\Sigma}^{-1} ] \mathrm{d} \mathbf{x} \\
=& \operatorname{Tr} \left[ \left\{ \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathbf{xx}^\mathrm{T} \mathrm{d} \mathbf{x} -2 \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})\mathbf{x} \bm{\mu}^\mathrm{T} \mathrm{d} \mathbf{x} + \int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})\bm{\mu} \bm{\mu}^\mathrm{T} \right\} \mathbf{\Sigma}^{-1}\right] \\
\end{aligned}
ここで、(2.59)と(2.62)より
\int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathbf{x} \mathrm{d} \mathbf{x} = \bm{\mu}
\int \mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma}) \mathbf{xx}^\mathrm{T} \mathrm{d} \mathbf{x} = \boldsymbol{\mu\mu}^\mathrm{T} + \mathbf{\Sigma}
ゆえに
\begin{aligned}
\mathrm{H}[\mathbf{x}]
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + \operatorname{Tr}[ \{ (\bm{\mu} \bm{\mu}^\mathrm{T} + \mathbf{\Sigma}) - 2 \bm{\mu} \bm{\mu}^T + \bm{\mu} \bm{\mu}^\mathrm{T} \} \mathbf{\Sigma}^{-1} ]\} \\
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + \operatorname{Tr}[ \mathbf{\Sigma} \mathbf{\Sigma}^{-1}] \} \\
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + \operatorname{Tr}[ \mathbf{I} ] \} \\
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + D \} \\
&= \frac{1}{2} \ln |\mathbf{\Sigma}| + \frac{D}{2}\left\{ 1 + \ln (2 \pi) \right\}
\end{aligned}
したがって題意が示された。
3.10 (★★★)
二つの確率変数x_1とx_2を考える. これらは,それぞれ平均が\mu_1と\mu_2で,精度が\tau_1と\tau_2のガウス分布に従うとする. このとき,変数x = x_1 + x_2の微分エントロピーの式を導出せよ.これには,まず,次の関係を用いてxの分布を求め,指数部分を平方完成する.
p(x)=\int_{-\infty}^{\infty} p\left(x \mid x_2\right) p\left(x_2\right) \mathrm{d} x_2 \tag{3.205}
すると,これは二つのガウス分布の畳み込みになっており,これ自体もガウス分布であることが分かる.最後に,一変数のガウス分布のエントロピー
\mathrm{H}[x] = \frac{1}{2}\left\{1 + \ln(2\pi\sigma^2)\right\} \tag{2.99}
を利用して求める.
x_1、x_2について、問題文の条件より
\begin{aligned}
p(x_1) &= \mathcal{N}(x_1 \mid \mu_1, \gamma_1^{-1}) \\
p(x_2) &= \mathcal{N}(x_2 \mid \mu_2, \gamma_2^{-1})
\end{aligned}
変数x = x_1 + x_2について、x_2が観測され固定された数とみなすと、xはx_1の線形関数とみなせる。
よってp(x \mid x_2)の分布の平均はx_1の平均\mu_1にx_2を足したものとなり、分散はx_1の分散\gamma_1^{-1}となる。
ゆえに
p(x\mid x_2) = \mathcal{N}(x \mid \mu_1 + x_2, \gamma_1^{-1})
(3.205)より
\begin{aligned}p(x) &= \int_{-\infty}^{\infty} \mathcal{N}(x \mid \mu_1 + x_2, \gamma_1^{-1}) \cdot \mathcal{N}(x_2 \mid \mu_2, \gamma_2^{-1}) \mathrm{d} x_2 \\
&= \int_{-\infty}^{\infty} \left( \frac{\gamma_1}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{- \frac{\gamma_1}{2} (x - \mu_1 - x_2)^2 \right\} \cdot \left( \frac{\gamma_2}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{- \frac{\gamma_2}{2} (x_2 - \mu_2)^2 \right\} \mathrm{d} x_2 \\
&= \int_{-\infty}^{\infty} \left( \frac{\gamma_1}{2 \pi} \right)^{\frac{1}{2}} \left( \frac{\gamma_2}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{- \frac{\gamma_1}{2} (x - \mu_1 - x_2)^2 - \frac{\gamma_2}{2} (x_2 - \mu_2)^2 \right\} \mathrm{d} x_2
\end{aligned}
この式の指数部分をx_2について平方完成すると
\begin{aligned}
-\frac{\gamma_1}{2} (x - \mu_1 - x_2)^2 - \frac{\gamma_2}{2} (x_2 - \mu_2)^2 &= - \frac{1}{2} (\gamma_1 + \gamma_2) x_2^2 + \{ \gamma_1(x - \mu_1) + \gamma_2 \mu_2 \} x_2 - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2 \\&= - \frac{1}{2} (\gamma_1 + \gamma_2) \left\{ x_2 - \frac{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2}{\gamma_1 + \gamma_2} \right\}^2 + \frac{\{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2\}^2}{2 (\gamma_1 + \gamma_2)} - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2
\end{aligned}
ここで、
m = \frac{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2}{\gamma_1 + \gamma_2}
と置くと、指数部分の式は以下のように表せる。
-\frac{\gamma_1 + \gamma_2}{2} \left( x_2 - m \right)^2 + \frac{\{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2\}^2}{2 (\gamma_1 + \gamma_2)} - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2
この式のx_2への依存性を見てみると、ガウス分布の標準的な二次形式部分である第一項に、x_2に依存しない項を足したものとなっている。
ここでx_2を積分消去すると、指数部分の式は第二項以降となる。
xの精度は指数部分の式のx^2の係数で直接与えられるため、上記式の第二項以降の項においてx^2の係数を計算すると
\begin{aligned}
\frac{\{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2\}^2}{2 (\gamma_1 + \gamma_2)} - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2 &= \frac{\gamma_1^2}{2 (\gamma_1 + \gamma_2)} x^2 - \frac{\gamma_1}{2} x^2 + \text{const} \\&= - \frac{1}{2} \frac{\gamma_1 \gamma_2}{\gamma_1 + \gamma_2} x^2 + \text{const}
\end{aligned}
ただし、\text{const}はx^2に依存しない数を表す。
ガウス分布の式との比較から、xの精度を\gammaとすると
\gamma = \frac{\gamma_1 \gamma_2}{\gamma_1 + \gamma_2}
が得られる。
(2.99)の式から微分エントロピーは
\begin{aligned}
\mathrm{H}[\mathbf{x}] &= \frac{1}{2} \left\{ 1 + \ln \left( \frac{2 \pi}{\gamma} \right) \right\} \\&= \frac{1}{2} \left\{ 1 + \ln \left( \frac{2 \pi (\gamma_1 + \gamma_2)}{\gamma_1 \gamma_2} \right) \right\}
\end{aligned}
3.11 (★)
\mathcal{N}(\mathbf{x} \mid \bm{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\bm{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\bm{\mu})\right\} \tag{3.26}
の多変量ガウス分布を考える.そして,精度行列(逆共分散行列)を対称行列と反対称行列の和の形で書く.このとき,反対称行列の項はガウス分布の指数部分には現れず,それゆえ一般性を失うことなく精度行列は対称であるとできることを示せ. この結果から,対称行列の逆行列も対称行列である(演習問題3.16)なので,一般性を失うことなく共分散行列も対称としてよいことになる.
この問題では以下の2つの定理を示す。
対称行列\mathbf{A}と反対称行列\mathbf{S}の一般形は次の通り.
\mathbf{A}=\left(
\begin{array}{ccccc}a_{11} & a_{12} & a_{13} & \cdots & a_{1 n} \\ a_{12} & a_{22} & a_{23} & \cdots & a_{2 n} \\ a_{13} & a_{23} & a_{33} & \cdots & a_{3 n} \\ \vdots & \vdots & & \ddots & \vdots \\ a_{1 n} & a_{2 n} & a_{3 n} & \cdots & a_{n n}\end{array}
\right)
\mathbf{S}=\left(
\begin{array}{ccccc}0 & s_{12} & s_{13} & \cdots & s_{1 n} \\ -s_{12} & 0 & s_{23} & \cdots & s_{2 n} \\ -s_{13} & -s_{23} & 0 & \cdots & s_{3 n} \\ \vdots & \vdots & & \ddots & \vdots \\ -s_{1 n} & -s_{2 n} & -s_{3 n} & \cdots & 0\end{array}
\right)
(証明)
任意の正方行列\mathbf{M}に対し,\mathbf{(M+M}^{\mathrm{T}})^{\mathrm{T}}=\mathbf{M}^{\mathrm{T}}+{\mathbf M}なので,\mathbf{M}+\mathbf{M}^{\mathrm{T}}は対称行列である.また,\mathbf{(M-M}^{\mathrm{T}})^{\mathrm{T}}=-({\mathbf M}-\mathbf{M}^{\mathrm{T}})なので,\mathbf{M}-{\mathbf M}^{\mathrm{T}}は反対称行列である.
よって,\displaystyle{\mathbf{A}=\frac{\mathbf{M}+\mathbf{M}^{\mathrm{T}}}{2}, \mathbf{S}=\frac{\mathbf{M}-\mathbf{M}^{\mathrm{T}}}{2}}とすれば,任意の正方行列\mathbf{M}は対称行列\mathbf{A}と反対称行列\mathbf{S}の和で表せることが示される.
また,これが1通りでのみ表せることを示す.そのために\mathbf{M}=\mathbf{A}_{1}+\mathbf{S}_{1}=\mathbf{A}_{2}+\mathbf{S}_{2}と仮定する.ここで,\mathbf{A}_1,\mathbf{A}_2は対称行列,\mathbf{S}_1,\mathbf{S}_2は反対称行列である.
上式を移行すると\mathbf{S}_{1}-\mathbf{S}_{2}=\mathbf{A}_{2}-\mathbf{A}_{1}であるが,\mathbf{S}_{1}-\mathbf{S}_{2}は反対称行列,\mathbf{A}_{2}-\mathbf{A}_{1}は対称行列となる.よって,これを満たすのは
\mathbf{S}_{1}-\mathbf{S}_{2}=\mathbf{A}_{2}-\mathbf{A}_{1} = \mathbf{O}
のときのみであり,\mathbf{S}_{1}=\mathbf{S}_{2}, \mathbf{A}_{1}=\mathbf{A}_{2}となる.したがって一意性が示された.
任意のD次元ベクトル\mathbf{y}とD\times Dの反対称行列\mathbf{S}について,
\mathbf{y}^{\mathrm T}{\mathbf{S}}{\mathbf{y}}=0
が成立することを示す.任意のD\times Dの行列\mathbf{M}を使うと
\begin{aligned}
\mathbf{y}^{\mathrm T}{\mathbf{S}}{\mathbf{y}} &=\sum_{j=1}^{D}\left(\sum_{i=1}^{D} y_{i} S_{i j}\right) y_{j} \\
&=\sum_{j=1}^{D} \sum_{i=1}^{D} y_{i} \cdot \frac{M_{ij}-M_{ji}}{2}\cdot y_{j} \\
&=\frac{1}{2} \left\{ \sum_{j=1}^{D} \sum_{i=1}^{D} y_{i} M_{ij} y_{j}-\sum_{j=1}^{D} \sum_{i=1}^{D} y_{j} M_{ji} y_{i}\right\} \\
&=0
\end{aligned}
これら2つの定理を用いて、ガウス分布の二次形式部分(マハラノビス距離の部分)\Delta^2 = (\mathbf{x}-\boldsymbol{\mu})^{\mathrm T}\mathbf{\Sigma^{-1}}(\mathbf{x}-\boldsymbol{\mu})の\mathbf{\Sigma^{-1}}の反対称要素は消えることを示す.
\mathbf{\Sigma^{-1}}=\mathbf{A}+\mathbf{S}と書く.ここで\mathbf{A}は対称行列,\mathbf{S}は反対称行列.
定理1の結果から、精度行列\mathbf{\Sigma}^{-1}も対称行列\displaystyle \frac{\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1})^{\mathrm T}}{2}, 反対称行列\displaystyle \frac{\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1})^{\mathrm T}}{2}に分解できる.
そして定理2の結果から、
\begin{aligned}
\Delta^{2} &=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}(\mathbf{A}+\mathbf{S})(\mathbf{x}-\boldsymbol{\mu}) \\
&=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{A}(\mathbf{x}-\boldsymbol{\mu})
\end{aligned}
つまり,反対称要素が消えることが示された.
この結果から、一般性を失うことなく精度行列は対称であるとできる.さらに、対称行列の逆行列も対称行列である(演習問題3.16)ので、一般性を失うことなく共分散行列も対称としてよいことになる.
3.12 (★★★)
実対称行列\mathbf{\Sigma}を考え,これを含む固有ベクトルの方程式が
\mathbf{\Sigma} \mathbf{u}_{i}=\lambda_{i} \mathbf{u}_{i} \tag{3.28}
で与えられるとする.この方程式の複素共役をとり,元の方程式を引いてから,固有ベクトル\mathbf{u}_{i}との内積をとる. このとき固有値\lambda_{i}が実数となることを示せ.同様に,\mathbf{\Sigma}の対称性を利用して,二つの固有ベクトル\mathbf{u}_iと\mathbf{u}_jは,\lambda_{j} \neq \lambda_{i}であれば直交することを示せ.最後に,一般性を失うことなく,いくつかの固有値がたとえ0であっても
\begin{align*}
\mathbf{u}_{i}^{\mathrm T} \mathbf{u}_{j} &= I_{i j} \tag{3.29} \\
I_{ij} &= \begin{cases}
1 & (i=j) \\
0 & (i \neq j)
\end{cases} \tag{3.30}
\end{align*}
を満たすように,固有ベクトルの集合を正規直交するように選べることを示せ.
この問題は以下の3つの問題を証明していくことになる。
① 対称行列の固有値は実数となる。
② 異なる固有値に対応する固有ベクトル同士は直交する。
③ いくつかの固有値が0であっても、正規直交となるように固有ベクトル集合を選ぶことができる。
① 対称行列の固有値は実数となる。
(3.28)式
\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_i
に左から随伴行列\mathbf{u}_i^{\dagger}をかけると(\lambda_iはスカラー値であることに注意する)
\mathbf{u}_i^{\dagger}\mathbf{\Sigma}\mathbf{u}_i = \mathbf{u}_i^{\dagger}\lambda_i\mathbf{u}_i
\mathbf{u}_i^{\dagger}\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_i^{\dagger}\mathbf{u}_i \tag{1}
また(3.28)式の両辺の複素共役をとり、右から\mathbf{u}_iをかける。(\mathbf{\Sigma u_i})^{\dagger}=\mathbf{u}_i^{\dagger}\mathbf{\Sigma}^{\dagger}=\mathbf{u}_i^{\dagger}\mathbf{\Sigma}、 \bar{\lambda_i}を\lambda_iの複素共役として
(\mathbf{\Sigma u_i})^{\dagger}\mathbf{u}_i = (\lambda_i\mathbf{u}_i)^{\dagger}\mathbf{u}_i
\mathbf{u}_i^{\dagger}\mathbf{\Sigma}\mathbf{u}_i = \bar{\lambda_i}\mathbf{u}_i^{\dagger}\mathbf{u}_i \tag{2}
よって(1)(2)式の差を取ると
0 = (\lambda_i - \bar{\lambda_i})\mathbf{u_i}^{\dagger}\mathbf{u_i}
となる。\mathbf{u_i}^{\dagger}\mathbf{u_i}は0ではないため、\lambda_i = \bar{\lambda_i}、つまり\lambda_iが実数となることが示された。
② 異なる固有値に対応する固有ベクトル同士は直交する。
次に(3.28)式の左側から\mathbf{u_j}^{\mathrm{T}}をかける
\mathbf{u}_j^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i = \mathbf{u}_j^{\mathrm{T}}\lambda_i\mathbf{u}_i
\mathbf{u}_j^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i
\begin{aligned}
\lambda_i\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i &= \mathbf{u}_j^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i \\
&= (\mathbf{\Sigma}\mathbf{u}_j)^{\mathrm{T}}\mathbf{u}_i \\
&= (\lambda_j\mathbf{u}_j)^{\mathrm{T}}\mathbf{u}_i \\
&= \lambda_j\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i
\end{aligned}
ここで\lambda_i \neq \lambda_jであれば上式から\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i=0となるので、\mathbf{u}_i,\mathbf{u}_jが直交していることが示された。この固有ベクトルは定数倍して\mathbf{u}_i \to \mathbf{u}_i/||\mathbf{u}_i||というように正規化すれば(3.30)式を満足させることができる。
ちなみに、同じ固有値\lambda(\neq0)に対する2個の固有ベクトル\mathbf{u}_i, \mathbf{u}_jが存在したとき、この線型結合a_i\mathbf{u}_i+a_j\mathbf{u}_jについて
\mathbf{\Sigma}(a_i\mathbf{u}_i+a_j\mathbf{u}_j) = \lambda(a_i\mathbf{u}_i+a_j\mathbf{u}_j)
と書くことができ、a_i\mathbf{u}_i+a_j\mathbf{u}_jも同じ固有値に対する固有ベクトルとして表現できる。これが得られる場合、例えばグラム・シュミットの直交化法を使うことで(3.29)式である\mathbf{u}_k^{\mathrm{T}}\mathbf{u}_l = I_{kl}となるような正規直交された\mathbf{u}_k, \mathbf{u}_lを\mathbf{u}_i, \mathbf{u}_jの組から得ることが可能であることが知られている。以上から、同じ固有値\lambda_i=\lambda_j(\neq 0)の場合でも(3.29)式を満足させられる固有ベクトルを得ることは可能である。
③ いくつかの固有値が0であっても、正規直交となるように固有ベクトル集合を選ぶことができる。
最後に、もしいくつかの\lambda_iが0だった場合、正則行列についての定理から\mathbf{\Sigma}は正則行列ではなく、逆行列を持たない特異行列となる。このとき、\mathbf{\Sigma}\mathbf{u}_i=\mathbf{0}となる零ベクトルではない固有ベクトル\mathbf{u}_iが存在することになり、これは\mathbf{\Sigma}の零空間(核)をなす。さらに、同じ固有値0となる別の固有ベクトル\mathbf{u}_jがある場合でも、上記のグラム・シュミット直交化法によって(3.29)式を満足させられる固有ベクトルを得ることが可能である。
3.13 (★★)
その固有ベクトルの方程式が
\mathbf{\Sigma} \mathbf{u}_{i}=\lambda_{i} \mathbf{u}_{i} \tag{3.28}
である実対称行列\mathbf{\Sigma}が,固有値を係数とした
\mathbf{\Sigma}=\sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \tag{3.31}
の形に展開できることを示せ.同様に,逆行列\mathbf{\Sigma}^{-1}は,
\mathbf{\Sigma}^{-1}=\sum_{i=1}^{D} \lambda_{i}^{-1} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \tag{3.32}
の形で表現できることを示せ.
※ (3.28)と(3.31)を行列形式で表すと変形が簡単になる。このとき、固有値\lambda_iを対角行列\mathbf{\Lambda}で書くとわかりやすい。
まず\mathbf{\Lambda}を\displaystyle \mathbf{\Lambda} = \left(\begin{array}{cccc}\lambda_{1} & & & 0 \\ & \lambda_{2} & & \\ & & \ddots & \\ 0 & & & \lambda_{D}\end{array}\right)となるような固有値からなる対角行列であるとする。さらに、\mathbf{U}をその列がD個の固有ベクトルからなる行列であるとする(つまり\mathbf{U} = (\mathbf{u}_{1}, \mathbf{u}_{2}, \cdots, \mathbf{u}_{D}))。\mathbf{\Lambda}, \mathbf{U}はともにD \times Dの行列である。
これにより(3.28)は行列形式で\mathbf{\Sigma}\mathbf{U} = \mathbf{U}\mathbf{\Lambda}と表せ、(3.31)は\mathbf{\Sigma} = \mathbf{U}\mathbf{\Lambda}\mathbf{U}^{\mathrm{T}}で表せる(……ということはちょっと計算してみないとわかりにくいかもしれない)。
よって、\mathbf{\Sigma}\mathbf{U} = \mathbf{U}\mathbf{\Lambda}の左から\mathbf{U}^{\mathrm{T}}を掛けると
\begin{aligned}
\mathbf{U}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{U} &= \mathbf{U}^{\mathrm{T}}\mathbf{U}\mathbf{\Lambda} \\
&= \mathbf{\Lambda} \ (\because \mathbf{U}\mathbf{U}^{\mathrm{T}}=\mathbf{U}\mathbf{U}^{\mathrm{T}}=1 )\\
\end{aligned}
となる。一方、この式から\mathbf{\Sigma} = \mathbf{U}\mathbf{\Lambda}\mathbf{U}^{\mathrm{T}}と表せることも分かり、(3.31)の行列形式が得られることが示された。
また、\mathbf{U}^{\mathrm{T}} = \mathbf{U}^{-1}であることを利用すれば
\begin{aligned}
\mathbf{\Sigma}^{-1} &= (\mathbf{U}\mathbf{\Lambda}\mathbf{U}^{\mathrm{T}})^{-1} \\
&= (\mathbf{U}^{\mathrm{T}})^{-1}\mathbf{\Lambda}^{-1}\mathbf{U}^{-1} \\
&= \mathbf{U}\mathbf{\Lambda}^{-1}\mathbf{U}^{\mathrm{T}}
\end{aligned}
となる。ここで\mathbf{\Lambda}\mathbf{\Lambda}^{-1} = \mathbf{I}より、\mathbf{\Lambda}^{-1}は対角成分が\frac{1}{\lambda_i}となる対角成分であることは容易にわかるので、
\mathbf{\Sigma}^{-1} = \sum_{i=1}^{D}\frac{1}{\lambda_i}\mathbf{u}_i\mathbf{u}_i^{\mathrm{T}}
となり、(3.32)式が得られることが示された。
3.14 (★★)
行列\mathbf{\Sigma}が正定値であるとは,次の二次形式が任意の実ベクトル\mathbf{a}について正になるということで定義される.
\mathbf{a}^{\mathrm{T}} \mathbf{\Sigma} \mathbf{a} \tag{3.206}
\mathbf{\Sigma}が正定値になる必要十分条件は,
\mathbf{\Sigma} \mathbf{u}_{i}=\lambda_{i} \mathbf{u}_{i} \tag{3.28}
で定義される\mathbf{\Sigma}のすべての固有ベクトル\lambda_{i}が正であることを示せ.
問題文より、「\mathbf{\Sigma}が正定値行列である」ことの定義は、(3.206)のように任意の零ベクトルでない実ベクトル\mathbf{a}について\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}>0が成立することである。
【解法1】
(3.28)式から\mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_iとする。\lambda_iは固有値である。
(3.28)式の両辺に左から\mathbf{u}_i^{\mathrm{T}}をかけると
\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i
\lambda_i = \frac{\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i}{\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i} \tag{1}
ここで、\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i,\ \mathbf{u}_i^{\mathrm{T}}\mathbf{u}_iはともにスカラーである。一方で、\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_iは実ベクトルの自身の2乗なので常に\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i>0となる(※特にこの問題設定では\mathbf{u}_iは直交行列なので\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i=1となる)。
よって、もし任意のiについて\lambda_{i}>0ならば(1)式から\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i>0となる。すなわち、\mathbf{\Sigma}が正定値行列となる。反対に、もし\mathbf{\Sigma}が正定値行列ならば任意のiについて\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i>0となるので、すべての固有値\lambda_iが正となる。
以上から題意は示された。
【解法2】
\mathbf{u}_{1}, \mathbf{u}_{2}, \ldots, \mathbf{u}_{D}は\mathbb{R}^Dの基底を張るので任意のベクトル\mathbf{a}は係数a_1, \ldots, a_Dを使って
\mathbf{a}=a_{1} \mathbf{u}_{1}+a_{2} \mathbf{u}_{2}+\ldots+a_{D} \mathbf{u}_{D}
と書くことができる。これより、
\begin{aligned}
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}
&= (a_{1} \mathbf{u}_{1}^{\mathrm{T}}+a_{2} \mathbf{u}_{2}^{\mathrm{T}}+\ldots+a_{D} \mathbf{u}_{D}^{\mathrm{T}})\mathbf{\Sigma}(a_{1} \mathbf{u}_{1}+a_{2} \mathbf{u}_{2}+\ldots+a_{D} \mathbf{u}_{D}) \\
&= \left(a_{1} \mathbf{u}_{1}^{\mathrm{T}}+\ldots+a_{D} \mathbf{u}_{D}^{\mathrm{T}}\right)\left(a_{1} \lambda_{1} \mathbf{u}_{1}+\ldots+a_{D} \lambda_{D} \mathbf{u}_{D}\right)\hspace{2em}(\because (3.28))
\end{aligned}
となる。今、i=jならば\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_j=1でそれ以外のとき\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_j=0であることを利用すれば、
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} = a_{1}^{2} \lambda_{1}+\ldots+a_{D}^{2} \lambda_{D}
が得られる。よって、もしすべての固有値が正ならば(\lambda_i>0)\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}>0となるため、\mathbf{\Sigma}が正定値行列であることがわかる。
反対に\mathbf{\Sigma}が正定値行列であるならばすべての固有値が正となることを示す。このために対偶「ある1つの固有値が0以下でならば、\mathbf{\Sigma}は正定値行列ではない」ことを示す。
もしある\lambda_iについて\lambda_i \le 0となるようなものが存在した場合、\mathbf{a} = \mathbf{u}_iとすれば\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} = \lambda_i\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i \le 0となり、\mathbf{\Sigma}は正定値行列ではないことが示される。よって対偶を取ると「\mathbf{\Sigma}が正定値行列であるならばすべての固有値が正となる」が示される。
以上から必要十分条件が示された。
3.15 (★)
大きさがD \times D型の実対称行列の独立なパラメータはD(D + 1)/2個であることを示せ.
大きさがD\times Dの実対称行列の全成分の個数は当然D^2個である。このうち、対角成分のD個を除いて残りのパラメータ(非対角成分)は対角成分に対して対称な値になっていなければならないので、そのパラメータの自由度は\displaystyle \frac{D^2-D}{2}個である。これにD個を足して
\frac{D^2-D}{2}+D = \frac{D(D+1)}{2}
つまり独立なパラメータは\displaystyle \frac{D(D+1)}{2}個である。
3.16 (★)
対称行列の逆行列は対称であることを示せ.
ある任意の対称行列\mathbf{A}があり、逆行列が存在する場合それを\mathbf{A}^{-1}とすると、
\mathbf{A}\mathbf{A}^{-1} = \mathbf{I}
となる(\mathbf{I}は単位行列)。両辺の転置を取り、\mathbf{A}は対称行列なので\mathbf{A} = \mathbf{A}^{\mathrm{T}}であることに注意すると
(\mathbf{A}\mathbf{A}^{-1})^{\mathrm{T}} = (\mathbf{A}^{-1})^{\mathrm{T}}\mathbf{A}^{\mathrm{T}} = (\mathbf{A}^{-1})^
{\mathrm{T}}\mathbf{A} = \mathbf{I}
ここで第3項について、逆行列の定義から
(\mathbf{A}^{-1})^{\mathrm{T}} = \mathbf{A}^{-1}
とならなければならないことがわかる。これは対称行列の逆行列\mathbf{A}^{-1}も対称行列となっていることを表している。
3.17 (★★)
\mathbf{\Sigma}=\sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \tag{3.31}
の固有ベクトル展開を用いて座標系を対角化することで,マハラノビス距離\Deltaが一定である超楕円体の内部の体積が,次式であることを示せ.
V_D|\mathbf{\Sigma}|^{1/2} \Delta^2 \tag{3.207}
ただし,V_DはD次元単位球の体積で,マハラノビス距離は
\Delta^2=(\mathbf{x}-\bm{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\bm{\mu}) \tag{3.27}
で定義される.
※ そもそも超楕円体って何?って調べてみても意外とGoogleでヒットしないのですが、以下の定義を使います。
楕円体は,2次曲面の一種です.2次元において,次の方程式:
\frac{x^2}{a^2}+\frac{y^2}{b^2}=1
で表現される図形を楕円と呼びますが,これのn次元へ拡張したものと捉えて問題ありません.より厳密な呼び分けとしては,n=3のときのみ楕円体と呼び,n\ge4のとき超楕円体と呼ぶ場合もあるようです.
http://ssr-yuki.hatenablog.com/entry/2020/04/26/230647
マハラノビス距離の2乗\displaystyle \Delta^2 = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})は、P.78の手続きから固有ベクトル展開を用いて座標系を対角化することで(2.50)式\displaystyle \Delta^2 = \sum_{i=1}^{D}\frac{y_i^2}{\lambda_i}と書くことができる。例としてD=2であれば
\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=\Delta^2
と書ける。これは平面図形の楕円である(P.79の図2.7のイメージ)。ちなみにD=3では楕円体(Wikipediaの楕円体を参照)を表す式になり、D \ge 4では超楕円体を表す。
D次元の超楕円体の体積V_eは以下の式で定義される。
V_e = \int\int\cdots\int dy_1dy_2\cdots dy_D
これは3次元の場合の式V_3 = \int\int\int dxdydzの拡張です。この辺についての説明は 楕円の面積と楕円体の体積の求め方のページも参考にしてみてください。
今、マハラノビス距離\Deltaは定数ということになっているので、超楕円体はa_i^2=y_i^2/\lambda_iの変数変換を行うことで、半径\Deltaの超球へと変換させることができる。つまりヤコビアン\mathbf{J}を使って表現すると
\begin{aligned}
V_e &= \int\int\cdots\int dy_1dy_2\cdots dy_D \\
&= \int\int\cdots\int |\mathbf{J}|da_1da_2\cdots da_D
\end{aligned}
となる。ここでヤコビアンは
\mathbf{J}=\left(\begin{array}{ccc}\frac{\partial y_{1}}{\partial a_{1}} & \cdots & \frac{\partial y_{1}}{\partial a_{D}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{D}}{\partial a_{1}} & \cdots & \frac{\partial y_{0}}{\partial a_{2}}\end{array}\right)=\left(\begin{array}{ccc}
\sqrt{\lambda_{1}} & & & 0 \\
& \sqrt{\lambda_{2}} \\
& & \ddots & \\
0 & & & \sqrt{\lambda_{D}}
\end{array}\right)
なので、|\mathbf{J}| = \prod_{i=1}^{D}\lambda_i^{1/2} =|\mathbf{\Sigma}|^{1/2}となる。
一方、\displaystyle \int\int\cdots\int da_1da_2\cdots da_D = \int \prod_{i=1}^{D}da_i部分は、半径\DeltaのD次元超球の体積を表しているので(各変数a_iの定義域は-\Delta \le a_i \le \Deltaである)、問題文の通りにV_DをD次元単位球の体積とすると、
\int\int\cdots\int da_1da_2\cdots da_D = V_D\Delta^D
となる。
以上から求める超楕円体の内部の体積V_eは(3.207)式の通りに
V_e = V_D|\mathbf{\Sigma}|^{1/2}\Delta^D
となることが示された。
マハラノビス距離の直感的な理解としては、例えば https://mathwords.net/mahalanobis などのサイトの説明を読んでください。多次元からなるデータ群の中で例えば外れ値を検出したい場合、データの各次元への分散まで考慮したデータ群からの距離を考える必要があります。これを実現するのがマハラノビス距離です。マハラノビス距離が大きい → その点での確率密度が小さい → 異常度が高いと考えることができます。
3.18 (★★)
\begin{pmatrix}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{pmatrix}^{-1} = \begin{pmatrix}\mathbf{M} & -\mathbf{MBD^{-1}} \\
-\mathbf{D}^{-1}\mathbf{CM} & \mathbf{D}^{-1}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1}
\end{pmatrix} \tag{3.60}
の恒等式を,その両辺に次の行列
\begin{pmatrix}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{pmatrix} \tag{3.208}
を掛け,
\mathbf{M} = (\mathbf{A} - \mathbf{B}\mathbf{D}^{-1}\mathbf{C})^{-1} \tag{3.61}
の定義を用いて証明せよ.
指示通り(3.60)の右辺に左から\displaystyle \begin{pmatrix}\mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix}をかけたものを\mathbf{X}とおく。これが左辺に左から\displaystyle \begin{pmatrix}\mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix}をかけたもの、すなわち単位行列\mathbf{I}になっていることを示せば良い。
\begin{aligned} \mathbf{X}
&=\begin{pmatrix}\mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix}
\begin{pmatrix}\mathbf{M} & -\mathbf{MBD}^{-1} \\ -\mathbf{D}^{-1} \mathbf{CM} & \mathbf{D}^{-1}+\mathbf{D}^{-1} \mathbf{CMBD}^{-1}\end{pmatrix} \\
&=\begin{pmatrix}\mathbf{AM}-\mathbf{BD}^{-1}\mathbf{CM} & -\mathbf{AMBD}^{-1}+\mathbf{B}\left(\mathbf{D}^{-1}+\mathbf{D}^{-1} \mathbf{CMBD}^{-1}\right) \\ \mathbf{CM}-\mathbf{DD}^{-1} \mathbf{CM} & -\mathbf{CMBD}^{-1}+\mathbf{D}\left(\mathbf{D}^{-1}+\mathbf{D}^{-1} \mathbf{CMBD}^{-1}\right)\end{pmatrix}
\end{aligned}
このそれぞれの部分行列成分について計算していくと
\begin{aligned}
\mathbf{X}_{11}
&=\mathbf{AM}-\mathbf{BD}^{-1} \mathbf{CM} \\
&=\left(\mathbf{A}-\mathbf{BD}^{-1} \mathbf{C}\right) \mathbf{M} \\ &=\left(\mathbf{A}-\mathbf{B D}^{-1} \mathbf{C}\right) \left(\mathbf{A}-\mathbf{BD}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{I}
\end{aligned}
\begin{aligned}
\mathbf{X}_{12}
&=-\mathbf{A M B D}^{-1}+\mathbf{B}\left(\mathbf{D}^{-1}+\mathbf{D}^{-1} \mathbf{C M B D}^{-1}\right) \\
&=-\mathbf{A M B D}^{-1}+\mathbf{B D}^{-1}+\mathbf{B D}^{-1}\mathbf{C M B D}^{-1} \\
&=-\left(\mathbf{A}-\mathbf{B D}^{-1} \mathbf{C}\right) \mathbf{M B D}^{-1}+\mathbf{B D}^{-1} \\
&=-\left(\mathbf{A}-\mathbf{B D}^{-1} \mathbf{C}\right)\left(\mathbf{A}-\mathbf{B D}^{-1} \mathbf{C}\right)^{-1} \mathbf{B D}^{-1}+\mathbf{B D}^{-1} \\
&=-\mathbf{B D}^{-1}+\mathbf{B D}^{-1} \\
&=\mathbf{O}
\end{aligned}
\begin{aligned}
\mathbf{X}_{21}
&=\mathbf{CM}-\mathbf{DD}^{-1}\mathbf{CM} \\
&=\mathbf{O}
\end{aligned}
\begin{aligned}
X_{22}
&=-\mathbf{C M B D}^{-1}+\mathbf{D}\left(\mathbf{D}^{-1}+\mathbf{D}^{-1} \mathbf{C M B D}^{-1}\right) \\
&=-\mathbf{C M B D}^{-1}+\mathbf{I}+\mathbf{C M B D}^{-1} \\ &=\mathbf{I}
\end{aligned}
よって全体として\mathbf{X} = \mathbf{I}となっていることが示せたので、(3.60)の恒等式は示された。
3.19 (★★★)
3.2.4節と3.2.5節では,多変量ガウス分布の条件付き分布と周辺分布について説明した.より一般化して,\mathbf{x}を\mathbf{x}_a, \mathbf{x}_b, および\mathbf{x}_cの三つに分けた場合について考察する.また,平均ベクトル\bm{\mu}と共分散行列\mathbf{\Sigma}は次式のようになる.
\bm{\mu}=\begin{pmatrix}
\bm{\mu}_a \\
\bm{\mu}_b \\
\bm{\mu}_c
\end{pmatrix}, \quad \mathbf{\Sigma}=\begin{pmatrix}
\mathbf{\Sigma}_{a a} & \mathbf{\Sigma}_{a b} & \mathbf{\Sigma}_{a c} \\
\mathbf{\Sigma}_{b a} & \mathbf{\Sigma}_{b b} & \mathbf{\Sigma}_{b c} \\
\mathbf{\Sigma}_{c a} & \mathbf{\Sigma}_{c b} & \mathbf{\Sigma}_{c c}
\end{pmatrix} \tag{3.209}
3.2 節の結果を用いて, \mathbf{x}_{c}を周辺化で消去した条件付き分布p(\mathbf{x}_a \mid \mathbf{x}_b)の式を求めよ.
\mathbf{x}_cを消去したときの同時分布p(\mathbf{x}_a,\mathbf{x}_b)は、平均ベクトルと共分散行列が
\bm{\mu}=\begin{pmatrix}
\bm{\mu}_{a} \\ \bm{\mu}_{b}
\end{pmatrix}, \quad \mathbf{\Sigma}=\begin{pmatrix}
\mathbf{\Sigma}_{a a} & \mathbf{\Sigma}_{a b} \\
\mathbf{\Sigma}_{b a} & \mathbf{\Sigma}_{b b}
\end{pmatrix}
のガウス分布となる。よって条件付き分布p(\mathbf{x}_a \mid \mathbf{x}_b)もガウス分布であり、その平均と分散はそれぞれ(3.65)と(3.66)となる。
\begin{align*}
\bm{\mu}_{a \mid b} & =\bm{\mu}_a+\mathbf{\Sigma}_{a b} \mathbf{\Sigma}_{b b}^{-1}\left(\mathbf{x}_b-\bm{\mu}_b\right) \tag{3.65} \\
\mathbf{\Sigma}_{a \mid b} & =\mathbf{\Sigma}_{a a}-\mathbf{\Sigma}_{a b} \mathbf{\Sigma}_{b b}^{-1} \mathbf{\Sigma}_{b a} \tag{3.66}
\end{align*}
Discussion