はじめに
PRML解答例まとめを参照
演習 1.1
関数y(x, \mathbf{w})が多項式(1.1)
y(x, \mathbf{w})=w_{0}+w_{1} x+w_{2} x^{2}+\cdots+w_{M} x^{M}=\sum_{j=0}^{M} w_{j} x^{j}
で与えられたときの(1.2)
E(\mathrm{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}
の二乗和誤差関数を考える。この誤差関数を最小にする係数\mathbf{w}=\left\{w_{i}\right\}は以下の線形方程式の解として与えられることを示せ.
\sum_{j=0}^{M} A_{i j} w_{j}=T_{i} \tag{1.122}
ただし、
A_{i j}=\sum_{n=1}^{N}\left(x_{n}\right)^{i+j},\hspace{1em}T_{i}=\sum_{n=1}^{N}\left(x_{n}\right)^{i} t_{n} \tag{1.123}
ここで,下付き添え字のiやjは成分を表し,(x)^jはxのj乗を表す.
(1.2)に(1.1)式を代入すると
E(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{\sum_{j=0}^{M} w_{j} {x_{n}}^{j}-t_{n}\right\}^{2}
E(\mathbf{w})を最小にするw_iを求めるための微分を行うと
\begin{aligned} \frac{\partial E}{\partial w_{i}} &=\frac{1}{2} \sum_{n=1}^{N}\left\{2\left(\sum_{j=0}^{N} w_{j} x_{n}^{j}-t_{n}\right) x_{n}^{i}\right\} \\ &=\sum_{n=1}^{N}\left(x_{n}^{i} \sum_{j=0}^{M} w_{j} x_{n}^{j}\right)-\sum_{n=1}^{N} {t_n} {x_{n}}^{i} \end{aligned}
\frac{\partial E}{\partial w_{i}}=0となるために,
\sum_{n=1}^{N}\left({x_{n}}^{i} \sum_{j=0}^{M} w_{j} x_{n}^j \right)=\underbrace{\sum_{n=1}^{N} t_{n} {x_{n}}^{i}}_{T_{i}}
\begin{aligned}(左辺) &=\sum_{n=1}^{N} {x_{n}}^{i}\left(w_{0} {x_{n}}^{0}+w_{1} {x_{n}}^{1}+\cdots+w_{M} {x_{n}}^{M}\right) \\ &=\sum_{n=1}^{N} (w_{0} {x_{n}}^{i}+w_{1} {x_{n}}^{i+1}+\cdots+w_{M} {x_n}^{i+M}) \\ &=\sum_{n=1}^{N} \sum_{j=0}^{M} {x_{n}}^{i+j} w_{j} \\ &=\sum_{j=0}^{M} (\sum_{n=1}^{N} {x_{n}}^{i+j} w_{j}) \\ &=\sum_{j=0}^{M} A_{i j} w_{j} \end{aligned}
よって示された。
演習 1.2
正則化された二乗和誤差関数(1.4)
\widetilde{E}(\mathrm{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathrm{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathrm{w}\|^{2}
を最小にする係数w_iが満たす,(1.122)
\sum_{j=0}^{M} A_{i j} w_{j}=T_{i}
に類似した線形方程式系を書き下せ.
1.1 と同様に行う。
\tilde{E}(w)=\frac{1}{2} \sum_{n=1}^{N}\left(\sum_{j=0}^{M} w_{i} x_{n}^{j}-t_{n}\right)^{2}+\frac{\lambda}{2}\|\mathrm{w}\|^{2}
0=\frac{\partial \tilde{E}}{\partial w_{i}}=\sum_{n=1}^{N} x_{n}^{i} \sum_{j=0}^{M} w_{j} x_{n}^{j}+\lambda w_{i}-\sum_{n=1}^{N} x_{n}^{i} t_{n}
整理すると
\sum_{n=1}^{N}\left(x_{n}^{i} \sum_{j=0}^{n} w_{j} x_{n}^{j}\right)=T_{i}-\lambda w_{i} \\
\sum_{j=0}^{M} \sum_{n=1}^{N} x_{n}^{i+j} w_{j}=\underbrace{T_{i}-\lambda w_{j}}_{T_{i}^\prime} \\
\sum_{j=0}^{M} A_{i j} w_{j}=T_{i}^\prime
※別例(演習模範回答ーパターン認識と機械学習完全版を参考)
{\tilde{A}_{i j}}=A_{i j}+\lambda I_{i j}
と置くことにする。
\frac{\partial \tilde{E}}{\partial w_{i}}=0となるためには、演習1.1同様に考えると、
\sum_{j=0}^{M} A_{i j} w_{j}+\lambda w_{i}=\underbrace{\sum_{n=1}^{N} t_{n} {x_{n}}^{i}}_{T_{i}}
であれば良い。
ここで上式を代入すると、
\sum_{j=0}^{M} \tilde{A}_{i j} w_{j}=T_{i}
と書ける。
演習 1.3
3個の色分けされた箱r(赤), b(青), g(緑)を考える. 箱rには3個のりんご,4個のオレンジ,3個のライムが入っており,箱bには1個のりんご, 1個のオレンジ, 0個のライムが入っており, 箱gには3個のりんご, 3個のオレンジ, 4個のライムが入っている箱をp(r)=0.2, p(b)=0.2, p(g)=0.6という確率でランダムに選び,果物を箱から1個取り出す(箱の中のものは等確率で選ばれるとする)とき,りんごを選び出す確率を求めよ.また,選んだ果物がオレンジであったとき,それが緑の箱から取り出されたものである確率はいくらか?
りんご, オレンジ, ライムを取り出すという事象をそれぞれA, O, Lとすると,
p(A)=p(r) p(A|r)+p(b) p(A|b)+p(g) p(A|g)=0.34
また, 同様にオレンジを選び出す確率p(O)は,
\begin{aligned}
p(O) &=p(O | r) p(r)+p(O | b) p(b)+p(O|g) p(g) \\
&=\frac{4}{10} \times 0.2+\frac{1}{2} \times 0.2+\frac{3}{10} \times 0.6=0.36
\end{aligned}
求める値「選んだ果物がオレンジであったとき,それが緑の箱から取り出されたものである確率」はベイズの定理を用いると
p(g|O)=\frac{p(O|g) p(g)}{p(O)}=\frac{3}{10}\times\frac{0.6}{0.36}=0.5
となる。
演習 1.4
連続変数x上で定義された確率密度p_x(x)を考える. x=g(y)により非線形変換を施すと密度は
\begin{aligned}
p_{y}(y) &=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right| \\
&=p_{x}(g(y))\left|g^{\prime}(y)\right|
\end{aligned} \tag{1.27}
の変換を受ける.(1.27)を微分してyに関する密度を最大にする位置\widehat{y}とxに関する密度を最大にする位置\widehat{x}とが,ヤコビ因子の影響により一般には単純な\widehat{x}=g(\widehat{y})という関係にないことを示せ.これは確率密度の最大値が,(通常の関数と異なり)変数の選択に依存することを示している.線形変換の場合には最大値の位置が変数自身と同じ変換を受けることを確かめよ.
定義より
p'_x(\hat{x})、p'_y(\hat{y})=0
である。
p_y(y)=p_x(g(y))|g'(y)|をyで微分するとp'_y(y)=sp'_x(g(y))(g'(y))^2+sp_x(g(y))g''(y)である。(ただし、s=-1 or +1である)
x=g(y)より、\hat{x}のときのyを\grave{y}とすると\hat{x}=g(\grave{y})である。
p'_y(\grave{y})=sp'_x(g(\grave{y}))(g'(\grave{y}))^2+sp_x(g(\grave{y}))g''(\grave{y})
p'_x(\hat{x})=p'_x(g(\grave{y}))=0であるから
p'_y(\grave{y})=0+sp_x(g(\grave{y}))g''(\grave{y})
一般にsp_x(g(\grave{y}))g''(\grave{y}) \ne 0であるのでp'_y(\grave{y})\ne 0よって\grave{y} \ne \hat{y}となり\hat{x}=g(\hat{y})はかならずしも成り立たない。
ただし、x=g(y)が線形変換の場合、g''(y)=0となるのでp'_y(\grave{y})=0となり、\grave{y}=\hat{y}であるから\hat{x}=g(\hat{y})になる。
演習 1.5
(1.38)の定義
\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] \tag{1.38}
を使って\mathrm{var}[f(x)]が
\operatorname{var}[f]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} \tag{1.39}
を満たすことを示せ.
\begin{aligned}
\operatorname{var}[f(x)]&=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] \\
&= \mathbb{E}\left[ f(x)^2 + \left( \mathbb{E}[f(x)] \right)^2-2f(x)\mathbb{E}[f(x)]\right] \\
&= \mathbb{E}[f(x)^2] + \left( \mathbb{E}[f(x)]\right)^2 - 2\mathbb{E}[f(x)]\cdot \mathbb{E}[f(x)] \\
&= \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2
\end{aligned}
よって(1.39)式が示された.
演習 1.6
2つの変数x, yが独立なら,それらの共分散は0になることを示せ.
f(x), f(y), f(x, y)を変数x,yの確率密度関数と同時確率密度関数としよう,
変数x,yは独立なので
この式をx,yの共分散に代入すると
\begin{aligned}
\operatorname{cov}\left(x, y\right) &= \mathbb{E}_{x,y}[\left\{x-\mathbb{E}\left[x\right]\right\}\left\{y-\mathbb{E}\left[y\right]\right\}]\\
&= \mathbb{E}_{x,y}\left[x,y\right]-\mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xyf\left(x,y\right)dxdy -\mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xyf\left(x\right)f\left(y\right)dxdy -\mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\
&= \int_{-\infty}^{\infty}xf\left(x\right)dx \cdot \int_{-\infty}^{\infty}yf\left(y\right)dy - \mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\
&= \mathbb{E}\left[x\right]\mathbb{E}\left[y\right] - \mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\
&= 0
\end{aligned}
となる.
演習 1.7
この演習問題では,1変数ガウス分布に関する規格化条件
\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1 \tag{1.48}
を証明する. このために, 積分
I=\int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}\right) \mathrm{d} x \tag{1.124}
を考え,その2乗を
I^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) d x d y \tag{1.125}
の形で書いて評価する. 直交座標系(x,y)から極座標(r,\theta)に変換し, u=r^2を代入する. \thetaとuに関する積分を実行し, 両辺の平方根を取ることにより,
I=\left(2 \pi \sigma^{2}\right)^{1 / 2} \tag{1.126}
が得られることを示せ.最後にこの結果からガウス分布\mathcal{N}\left(x | \mu, \sigma^{2}\right)が規格化されていることを示せ.
極座標系x=r\cos\theta, y=r\sin\thetaとおいて、(1.125)式に代入すると、f(r,\theta)=f(x,y)\left| \frac{\partial(x,y)}{\partial(r,\theta)} \right|なので、このヤコビアン\left| \frac{\partial(x,y)}{\partial(r,\theta)} \right|は
\frac{\partial(x, y)}{\partial(r, \theta)}=\left|\begin{array}{ll}\frac{\partial x}{\partial r} & \frac{\partial x}{\partial \theta} \\
\frac{\partial y}{\partial r} & \frac{\partial y}{\partial \theta}\end{array}\right|=\left|\begin{array}{cc}\cos \theta & -r \sin \theta \\
\sin \theta & r \cos \theta\end{array}\right|=r\left(\cos ^{2} \theta+\sin ^{2} \theta\right)=r
なので、
I^2 = \int_{0}^{2\pi}\int_{0}^{\infty}\exp\left(-\frac{1}{2\sigma^2}r^2 \right) r dr d\theta
u=r^2と変換すると、du=2rdrなので
\begin{aligned}
I^2 &= \int_{0}^{2\pi}\int_{0}^{\infty}\exp\left(-\frac{1}{2\sigma^2}u \right) \cdot \frac{1}{2}du d\theta \\
&= \pi \int_{0}^{\infty}\exp{\left( -\frac{1}{2\sigma^2}u\right)}dud\theta \\
&= \pi \left[ \exp{\left(-\frac{1}{2\sigma^2}u\right)}\cdot (-2\sigma^2)\right]_{0}^{\infty} \\
&= -2\pi\sigma^2(e^{-\infty} - e^0) = 2\pi\sigma^2
\end{aligned}
両辺の平方根をとって式(1.126)のI=\sqrt{2\pi\sigma^2}を得る。
また、ガウス積分の式は積分範囲が\muだけずれても-\infty \to \inftyは変わらないので、
\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) dx=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \int_{-\infty}^{\infty} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} dx= \frac{1}{\sqrt{2\pi\sigma^2}} \cdot \sqrt{2\pi\sigma^2}=1
となり、正規化されていることが示された。
演習 1.8
変数変換を使って1変数ガウス分布
\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} \tag{1.46}
が
\mathbb{E}[x]=\int^{\infty}_{-\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu \tag{1.49}
を満たすことを確かめよ. 次に, 規格化条件
\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) \mathrm{d} x=1 \tag{1.48}
の両辺を\sigma^2に関して微分し,ガウス分布が
\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2} \tag{1.50}
を満たすことを確かめよ. 最後に
\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2} \tag{1.51}
が成り立つことを示せ.
(1.46)より
\mathbb{E}[x] = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi\sigma^2}}\exp{(-\frac{1}{2\sigma^2}(x-\mu)^2)}dx
ここで、y=x-\muとおくと
\begin{aligned}
\mathbb{E}[x]&=\int_{-\infty}^{\infty}\frac{y+\mu}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy \\
&=\int_{-\infty}^{\infty}\frac{y}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy+\mu\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy \\
&=\int_{-\infty}^{\infty}\frac{y}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy+\mu\int_{-\infty}^{\infty}\mathcal{N}(y|0, \sigma^2)dy
\end{aligned}
第1項は奇関数なので0であり、(1.48)より
\begin{aligned}\mathbb{E}[x]&=0+\mu・1\\&=\mu\end{aligned}
ゆえに(1.46)は(1.49)を満たす。
次に規格化条件に関して、(1.46)と(1.48)より
\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left(-\frac{1}{2\sigma^2}(x-\mu)^2 \right)}dx=1
\int_{-\infty}^{\infty}\exp{\left( -\frac{1}{2\sigma^2}(x-\mu)^2 \right)}dx=\sqrt{2\pi\sigma^2}
両辺を\sigma^2で微分すると
\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{2(\sigma^2)^2}\exp{(-\frac{1}{2\sigma^2}(x-\mu)^2)}dx=(2\pi)^\frac{1}{2}\frac{(\sigma^2)^-\frac{1}{2}}{2}
整理すると
\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi\sigma^2}}\exp{(-\frac{1}{2\sigma^2}(x-\mu)^2)}dx=\sigma^2
ここで、(左辺)=\mathbb{E}[(x-\mu)^2]なので
\mathbb{E}[(x-\mu)^2]=\sigma^2
\mathbb{E}[x^2-2\mu x+\mu^2]=\sigma^2
\mathbb{E}[x^2]-2\mu\mathbb{E}[x]+\mu^2=\sigma^2
(1.49)より\mathbb{E}[x]=\muなので
\mathbb{E}[x^2]-2\mu^2+\mu^2=\sigma^2
\mathbb{E}[x^2]=\mu^2+\sigma^2
ゆえにガウス分布は(1.50)を満たす。
また(1.51)について、(1.49)と(1.50)より
\begin{aligned}
\operatorname{var}[x]&=\mathbb{E}[x^2]-\mathbb{E}[x]^2\\&=(\mu^2+\sigma^2)-\mu^2\\&=\sigma^2
\end{aligned}
演習 1.9
ガウス分布
\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} \tag{1.46}
のモード(つまり分布が最大となるxの値)が, \muで与えられることを示せ. 同様に, 多変量ガウス分布
\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right) = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} \tag{1.52}
のモードは\boldsymbol{\mu}で与えられることを示せ.
\mathcal{N}\left(x | \mu, \sigma^{2}\right) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}
の概形からxのモードは\expの中身が最大の時、つまりx=\muとなるようなxであるとわかる。厳密にはxについて微分をとって0になるときを計算すればよい。
また、多変量ガウス分布
\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right) = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}
について、これを\mathbf{x}で偏微分すると
\frac{\partial}{\partial \mathbf{x}} \mathbf{x}^\mathrm{T}\mathbf{a}\mathbf{x} = (\mathbf{a}+\mathbf{a}^\mathrm{T})\mathbf{x} (1)と\mathbf{\Sigma}が対称行列であることを用いて
\begin{aligned}
\frac{\partial}{\partial \mathbf{x}}\mathcal{N}\left(\mathbf{x} | \mu, \mathbf{\Sigma}\right) &= -\frac{1}{2}\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right)\nabla_{\mathbf{x}}\{(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\}\\
&=-\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right)\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})
\end{aligned}
となり最大値は\mathbf{x}=\boldsymbol{\mu}のときであり、このときモードをとる。
1,統計のための行列代数上巻 P.355(3.7)式参照
演習 1.10
2変数x,zが統計的に独立であるとする. それらの和の平均と分散が
\begin{aligned} \mathbb{E}[x+z] &=\mathbb{E}[x]+\mathbb{E}[z] \\ \operatorname{var}[x+z] &=\operatorname{var}[x]+\operatorname{var}[z] \end{aligned}
を満たすことを示せ。
xとzは独立より p(x, z) = p(x)p(z) であることに注意すると
\mathbb{E}[x+z] は
\begin{aligned}
\mathbb{E}[x+z] &= \int\int(x+z)p(x, z)\mathrm{d}x\mathrm{d}z \\
&= \int\int(x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z \\
&= \int\int xp(x)p(z)\mathrm{d}x\mathrm{d}z + \int\int zp(x)p(z)\mathrm{d}x\mathrm{d}z \\
&= \int xp(x)\mathrm{d}x \int p(z)\mathrm{d}z + \int zp(z)\mathrm{d}z \int p(x)\mathrm{d}x \\
&= \int xp(x)\mathrm{d}x + \int zp(z)\mathrm{d}z \\
&= \mathbb{E}[x] + \mathbb{E}[z]
\end{aligned}
となる。
また、上式を利用すると\mathrm{var}[x+z]は
\begin{aligned}
\mathrm{var}[x+z] &= \mathbb{E}[\{(x+z) - \mathbb{E}[x+z]\}^2] \\
&= \int\int(x+z - \mathbb{E}[x+z])^2p(x, z)\mathrm{d}x\mathrm{d}z \\
&= \int\int(x-\mathbb{E}[x] + z-\mathbb{E}[z])^2p(x)p(z)\mathrm{d}x\mathrm{d}z \\
&= \int\int\{(x-\mathbb{E}[x])^2 + (z-\mathbb{E}[z])^2 + 2(x-\mathbb{E}[x])(z-\mathbb{E}[z])\}p(x)p(z)\mathrm{d}x\mathrm{d}z \\
&= \int(x-\mathbb{E}[x])^2p(x)\mathrm{d}x\int p(z)\mathrm{d}z + \int(z-\mathbb{E}[z])^2p(z)\mathrm{d}z\int p(x)\mathrm{d}x \\&+ 2\int\int(x-\mathbb{E}[x])(z-\mathbb{E}[z])p(x)p(z)\mathrm{d}x\mathrm{d}z \\
\end{aligned}
ここで第3項について
\begin{aligned}
(第3項)
&=2\int\int(x-\mathbb{E}[x])(z-\mathbb{E}[z])p(x)p(z)\mathrm{d}x\mathrm{d}z \\
&= 2\int(x-\mathbb{E}[x])p(x)\mathrm{d}x\int(z-\mathbb{E}[z])p(z)\mathrm{d}z \\
&= 2(\mathbb{E}[x]-\mathbb{E}[x])(\mathbb{E}[z]-\mathbb{E}[z]) = 0
\end{aligned}
であるため
\begin{aligned}
\mathrm{var}[x+z] &= \int(x-\mathbb{E}[x])^2p(x)\mathrm{d}x\int p(z)\mathrm{d}z + \int(z-\mathbb{E}[z])^2p(z)\mathrm{d}z\int p(x)\mathrm{d}x \\
&= \mathrm{var}[x] + \mathrm{var}[z]
\end{aligned}
となる。
演習 1.11
対数尤度関数
\begin{aligned}
\ln p(\bf{x}|\mu,\sigma^2)
&= - \frac{1}{2\sigma^2} \sum_{n=1}^{N} (x_n-\mu)^2 - \frac{N}{2} \ln \sigma^2 - \frac{N}{2} \ln (2\pi)
\end{aligned} \tag{1.54}
の\muと\sigma^2に関する微分を0とおいて,
\begin{aligned}
\mu_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} x_n
\end{aligned} \tag{1.55}
と
\begin{aligned}
\sigma^2_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu)^2
\end{aligned} \tag{1.56}
を確かめよ.
対数尤度関数(1.54)をfと置く。
\muで微分すると、第2・第3項は消えて
\begin{aligned}
\frac{\partial f}{\partial \mu}
&=
\frac{1}{\sigma^2} \sum_{n=1}^{N} (x_n-\mu) =
\frac{1}{\sigma^2} \sum_{n=1}^{N} x_n - \frac{1}{\sigma^2} N\mu
\end{aligned}
これを0と置くことで、\muの最尤解(1.55)
\begin{aligned}
\mu_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} x_n
\end{aligned}
を得る。
\sigma^2で微分すると、第3項は消えて
\begin{aligned}
\frac{\partial f}{\partial \sigma^2}
&=
\frac{1}{2(\sigma^2)^2} \sum_{n=1}^{N} (x_n-\mu)^2 - \frac{N}{2\sigma^2}
\end{aligned}
これを0と置くことで、\sigma^2の最尤解(1.56)
\begin{aligned}
\sigma^2_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu)^2
\end{aligned}
を得る。
\muと\sigma^2について同時に最尤推定を行うことで、\mu_{\mathrm{ML}}を\sigma^2_{\mathrm{ML}}に代入して
\begin{aligned}
\sigma^2_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{\mathrm{ML}})^2
\end{aligned}
を得る。
演習 1.12
\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu \tag{1.49}
と
\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2} \tag{1.50}
を使って
\mathbb{E}\left[x_{n} x_{m}\right]=\mu^{2}+I_{n m} \sigma^{2} \tag{1.130}
を示せ.ただし,x_nとx_mは平均\mu,分散\sigma^2のガウス分布から生成されたデータ点を表し,I_{nm}はn=mのときI_{nm}=1でそれ以外はI_{nm}=0であるとする.これから
\mathbb{E}\left[\mu_{\mathrm{ML}}\right]=\mu \tag{1.57}
と
\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\left(\frac{N-1}{N}\right) \sigma^{2} \tag{1.58}
を証明せよ.
まず,\mathbb E[x_nx_m]について
n=mのとき
\mathbb E[x_nx_m] = \mathbb E[x_n^2] = \mu^2 + \sigma^2
n \ne mのとき,x_nとx_mは独立であるから
\mathbb E[x_nx_m] = \mathbb E[x_n]\mathbb E[x_m] = \mu^2
まとめると
\mathbb E[x_nx_m] = \mu^2 + I_{nm}\sigma^2
となる.次に,\mathbb E[\mu_{\mathrm{ML}}]について
\begin{aligned}
\mathbb E[\mu_{\mathrm{ML}}] &= \mathbb E\left[\frac{1}{N}\sum_{n=1}^N x_n\right] \\
&= \frac{1}{N}\sum_{n=1}^N \mathbb E\left[x_n\right] \\
&= \frac{1}{N}N \mu \\
&= \mu \\
\end{aligned}
となる.また,\mathbb E[\sigma_{\mathrm{ML}}^2]について
\begin{aligned}
\mathbb E[\sigma_{\mathrm{ML}}^2] &= \mathbb E\left[\frac{1}{N}\sum_{n=1}^N (x_n - \mu_{\mathrm{ML}})^2\right] \\
&= \mathbb E \left[\frac{1}{N}\sum_{n=1}^N \left(x_n - \frac{1}{N}\sum_{m=1}^N x_m\right)^2\right] \\
&= \frac{1}{N} \sum_{n=1}^N \mathbb E \left[x_n^2 - \frac{2}{N}x_n\sum_{m=1}^N x_m + \frac{1}{N^2}\left(\sum_{m=1}^N x_m\right)^2\right] \\
&= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \mathbb E \left[x_n\sum_{m=1}^N x_m \right] + \frac{1}{N^2} \mathbb E \left[\left(\sum_{m=1}^N x_m\right)^2\right]\right\} \\
&= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \sum_{m=1}^N \mathbb E \left[x_n x_m \right] + \frac{1}{N^2} \mathbb E \left[\left(\sum_{m=1}^N x_m\right)^2\right]\right\} \\
\end{aligned}
ここで
\begin{aligned}
\left(\sum_{m=1}^N x_m\right)^2 &= (x_1+x_2+\cdots+x_N)(x_1+x_2+\cdots+x_N) \\
&= (x_1^2+x_1x_2+\cdots+x_1x_N) + (x_1x_2+x_2^2+\cdots+x_2x_N) + \cdots + (x_1x_N+x_2x_N+\cdots+x_N^2)\\
&= \sum_{k=1}^N \sum_{l=1}^N x_k x_l
\end{aligned}
より
\begin{aligned}
\mathbb E[\sigma_{\mathrm{ML}}^2] &= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \sum_{m=1}^N \mathbb E \left[x_n x_m \right] + \frac{1}{N^2} \mathbb E \left[\sum_{k=1}^N \sum_{l=1}^N x_k x_l\right]\right\} \\
&= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \sum_{m=1}^N \mathbb E \left[x_n x_m \right] + \frac{1}{N^2} \sum_{k=1}^N \sum_{l=1}^N \mathbb E \left[x_k x_l\right]\right\} \\
&= \frac{1}{N} \sum_{n=1}^N \left\{(\mu^2 + \sigma^2) - \frac{2}{N} \left(\mu^2 + \sigma^2 + (N-1)\mu^2\right) + \frac{1}{N^2} \left(N(\mu^2 + \sigma^2) + N(N-1)\mu^2 \right)\right\} \\
&= \frac{1}{N} \sum_{n=1}^N \left(\mu^2 + \sigma^2 - 2\mu^2 - \frac{2}{N} \sigma^2 + \mu^2 + \frac{1}{N} \sigma^2\right) \\
&= \frac{1}{N} \sum_{n=1}^N \left(\frac{N-1}{N} \sigma^2 \right) \\
&= \frac{1}{N} N \left(\frac{N-1}{N} \sigma^2 \right) \\
&= \frac{N-1}{N} \sigma^2 \\
\end{aligned}
となる。
演習 1.13
ガウス分布の分散の推定値
\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2} \tag{1.56}
において,最尤推定値\mu_{\mathrm{ML}}を真の平均の値\muで置き換えよう.この推定量は期待値が真の分散\sigma^2となる性質を持つことを示せ.
\mu_{\mathrm {ML}}を真の平均\muで置き換えたものを\hat\sigma_{\mathrm{ML}}^2とし,その期待値をとると
\begin{aligned}
\mathbb E[\hat\sigma_{\mathrm{ML}}^2] &= \mathbb E\left[\frac{1}{N}\sum_{n=1}^N (x_n - \mu)^2\right] \\
&= \frac{1}{N} \sum_{n=1}^N \mathbb E \left[x_n^2 - 2x_n\mu + \mu^2 \right] \\
&= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - 2\mu \mathbb E \left[x_n \right] + \mu^2 \right\} \\
&= \frac{1}{N} \sum_{n=1}^N \left(\mu^2+\sigma^2 - 2\mu \mu + \mu^2 \right) \\
&= \sigma^2
\end{aligned}
となる.
演習 1.14
w_{ij}を成分とする任意の正方行列はw_{ij}=w_{ij}^{\mathrm S}+w_{ij}^{\mathrm A}という形に書けることを示せ.ただし,w_{ij}^{\mathrm S}とw_{ij}^{\mathrm A}はそれぞれ対称行列と反対称行列の成分でありw_{ij}^{\mathrm S}=w_{ji}^{\mathrm S}およびw_{ij}^{\mathrm A}=-w_{ji}^{\mathrm A}がすべてのi, jについて成り立つ.さてここで,D次元における高次の多項式の2次の項
\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j} \tag{1.131}
を考えると,
\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}=\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j}^{\mathrm S} x_{i} x_{j} \tag{1.132}
となり,反対称行列の寄与が消えることを示せ.このことから,一般性を失うことなく,係数w_{ij}は対称に選んでよく,すべてのD^2の成分の選び方が独立ではないことがわかる.これを使って,行列w_{ij}^{\mathrm S}の独立パラメータの数がD(D+1)/2で与えられることを示せ.
w_{ij}=w_{ij}^{\mathrm S}+w_{ij}^{\mathrm A}であることを示す。
これは任意の正方行列のi行j列めの成分をw_{ij}としたとき、これを使ってw_{ij}^{\mathrm S}=\frac{1}{2}(w_{ij}+w_{ji})とおくと、w_{ij}^{\mathrm S}は常に対称行列となる。同様に、w_{ij}^{\mathrm A}=\frac{1}{2}(w_{ij}-w_{ji})とおくと、このw_{ij}^{\mathrm A}は常に反対称行列となる。これらを用いると
w_{ij}=w_{ij}^{\mathrm S}+w_{ij}^{\mathrm A}
となるので、任意の正方行列は、w_{ij}^{\mathrm S}を成分とする対称行列と、w_{ij}^{\mathrm A}を成分とする反対称行列の和で必ず表現できることが示された。
ここでw_{ij}^{\mathrm A}について、
\sum_{i=1}^{D} \sum_{j=1}^{D} w_{ij}^{\mathrm A} x_{i} x_{j} = \sum_{i=1}^{D} \sum_{j=1}^{D} \frac{1}{2}(w_{ij}-w_{ji}) x_{i} x_{j} = 0
となるため、
\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}=\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j}^{\mathrm S} x_{i} x_{j}
が常に成り立つことが示される。また、この結果から二次形式の係数行列は対称行列とおいても一般性が失われないという重要な帰結を得ることができる。
w_{i j}^{\mathrm S}については、対角成分を挟んで成分が対称になっていなければならないので、この行列の独立なパラメータは\displaystyle \sum_{n=1}^{D}n=\frac{D(D+1)}{2}個である。
演習 1.15(難)
この演習問題と次の演習問題では,多項式の独立パラメータの数が多項式の次数Mや入力空間の次元Dに対してどのように増えるかを考える.まず,D次元の多項式のM次の項を書き下すと,
\sum_{i_1=1}^{D} \sum_{i_2=1}^{D} \cdots \sum_{i_{M=1}}^{D} w_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}} \tag{1.133}
となる.係数w_{i_{1}i_{2} \cdots i_{M}}はD^M個あるが,そのうち独立なパラメータの数はx_{i_1}x_{i_2} \cdots x_{i_M}の多くの置換対称性からそれよりずっと少なくなる.始めに,M次の項を
\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \tilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}} \tag{1.134}
と書き直すことによって係数の冗長性を取り除けることを示せ.ただし,\tilde{w}とwの厳密な関係は陽に表す必要はないことに注意せよ.この結果を使って,M次における独立なパラメータの数、n(D, M)が
n(D, M)=\sum_{i=1}^{D} n(i, M-1) \tag{1.135}
という再帰的な関係を満たすことを示せ.さらに,数学的帰納法により以下の結果が成り立つことを示せ.
\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !} \tag{1.136}
これを示すには,まずD=1と任意のMの場合を0!=1を使って証明し,次に
D次元で成り立っていると仮定して,D+1次元でも成り立つことを確かめればよい.最後に,上の2つの結果から,数学的帰納法により
n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !} \tag{1.137}
を示せ.これを示すには,まずM=2と任意のD\ge 1について正しいことを,演習問題1.14の結果との比較によって示し,次に,(1.135)と(1.136)を使って,M-1次で成り立てばM次でも成り立つことを示せばよい.
※ 問題文の意味が分かりにくいが、やろうとしていることは実はただの二項展開である。
問題が分かりにくいので、D=4, M=2としてx_1, x_2, x_3, x_4の4次元の多項式について2次の項を書き下すことを考える。(1.133)の記法に従うと
\sum_{i_1=1}^{4} \sum_{i_2=1}^{4} w_{i_{1} i_{2}} x_{i_{1}} x_{i_{2}} \tag{1.133}
と書けることになるが、この記法では例えばw_{12}x_1 x_2とw_{21}x_2 x_1が別々に現れて和をとる形になる。しかしかけ算の順序が交換可能であることを用いれば(w_{12}+w_{21})x_2 x_1とまとめて書くことができる。
そこで、xの添字が常にi_1 \ge i_2 \ge \cdots i_Mとなるようにし、その係数wの和をまとめて\tilde{w}と書き直す(上の例では\tilde{w}_{21} = w_{12} + w_{21})ことでも一般性は失われない。
以上から、(1.133)式は
\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \tilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}} \tag{1.134}
のように書き直せることがわかる(\tilde{w}とwの関係性を陽に表す必要はない)。
次に、この結果を用いると入力空間の次元Dに対してM次における独立なパラメータの数というのは、すでに冗長性がなくなっているために
\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \tilde{w}_{i_{1} i_{2} \cdots i_{M}}
の\tilde{w}の項の数と等しいことがわかる(※このへんでパスカルの三角形や二項展開のことが頭に思い浮かぶかもしれない)。すなわち
n(D,M) = \sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} 1
となるので、あとはこれを求めれば良い。
この式についてD \to i, M \to M-1とすると
n(i, M-1)=\sum_{i_{1}=1}^{i} \sum_{i_{2}=1}^{i_{1}} \ldots \sum_{i_{(M-1)}=1}^{i_{(M-1)-1}} 1
となるので、(1.135)式の右辺から計算すると
\begin{aligned}
& \sum_{i=1}^{D} n(i, M-1) \\
=& \sum_{i=1}^{D} \sum_{i_{1}=1}^{i} \sum_{i_{2}=1}^{i_{1}} \ldots \sum_{i_{M-1}=1}^{i_{(M-1)-1}} 1 \\
=& \sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \sum_{i_{3}=1}^{i_{2}} \cdots \sum_{i_{M}=1}^{i_{M-1}} 1 \quad (\because i \rightarrow i_{1}, i_{n} \rightarrow i_{n+1}) \\
=&\ n(D, M)
\end{aligned}
となり、(1.135)式が成立することが示された。
後の数学的帰納法については……(書きかけ)
別解としては、結局のところn(D,M)の計算部分は多項式の二項展開と同じなので、異なるD個のパラメータから重複を許してM個とってくる場合の数と等しいことがわかる。すなわち
n(D, M) = { }_{D-1} \mathrm{H}_{M-1} = { }_{D+M-1} \mathrm{C}_{M} = \frac{(D+M-1)!}{(D-1)!M!}
であり、(1.137)式が得られる。
演習 1.16(難)
演習問題1.15で,M次のD次元多項式の独立なパラメータの数が(1.135)となることを証明した.次に,M次までのすべての項における独立パラメータの総数N(D,M)を求めよう.まずN(D,M)が
N(D, M)=\sum_{m=0}^{M} n(D, m) \tag{1.138}
を満たすことを示せ.ただし,n(D,M)はm次の項における独立パラメータの数である.(1.137)の結果と数学的帰納法により,
N(D, M)=\frac{(D+M) !}{D ! M !} \tag{1.139}
を示せ.これを示すには,まず,M=0と任意のD \ge 1について成り立つことを証明してから,M次で成り立つならM+1次で成り立つことを示せばよい.最後にスターリングの近似式,つまりnが大きいとき
n ! \simeq n^{n} e^{-n} \tag{1.140}
が成り立つことを使って,D \gg MのときN(D,M)がD^Mで大きくなり,M \gg DのときはM^Dで大きくなることを示せ.D次元の3次多項式(M=3)を考え,独立パラメータの総数を(i)D=10 (ii)D=100のそれぞれの場合について数値的に評価せよ.これらは典型的な小スケールおよび中スケールの機械学習の応用に対応する.
演習1.15の結果からD次元多項式のあるM次の独立なパラメータがn(D,M)個であることが求まったので、0 \le m \le Mまでの合計のパラメータ数は
N(D,M) = \sum_{m=0}^M n(D,m)
と書ける(証明になっていないけれど自明だと思う)。
次に数学的帰納法を用いて
N(D,M) =\frac{(D+M) !}{D ! M !}
すなわち演習1.15の結果を用いて
\sum_{m=0}^{M} \frac{(D+m-1) !}{(D-1) ! m !}=\frac{(D+M) !}{D ! M !} \tag{*}
であることを示す(D, Mはそれぞれ1, 0以上の整数値)。
(i) M=0のとき
(左辺) = 1, (右辺) = 1となるので成立する。
(ii) M=kのとき(*)が成立すると仮定する。このときM=k+1において
\begin{aligned}
\sum_{m=0}^{k+1} \frac{(D+m-1) !}{(D-1) ! m !} &=\frac{(D+k) !}{(D-1) !(k+1) !}+\sum_{m=0}^{k} \frac{(D+m-1) !}{(D-1) ! m !} \\
&=\frac{(D+k) !}{(D-1) !(k+1) !}+\frac{(D+k) !}{D ! k !} \\
&=\frac{(D+k) !}{D !(k+1) !}\{D+(k+1)\} \\
&=\frac{(D+(k+1)) !}{D !(k+1) !}
\end{aligned}
となるので、M=k+1のときも成立することが示された。
最後に、まずD \gg Mの条件下において、\frac{M}{D} \ll 1であることとスターリングの公式n! \simeq n^n e^{-n}を用いると
\begin{aligned}
N(D, M) &=\frac{(D+M) !}{D ! M !} \\
& \simeq \frac{(D+M)^{D+M} e^{-D-M}}{D^{D} e^{-D} \cdot M !} \\
&=\frac{e^{-M}}{M ! D^{D}}(D+M)^{D+M} \\
&=\frac{D^{M} e^{-M}}{M !}\left(1+\frac{M}{D}\right)^{D+M} \\
& \simeq \frac{D^{M} e^{-M}}{M !}\left(1+\frac{M}{D}(D+M)\right) \\
&= \frac{D^M e^{-M}}{M!}\left\{ 1 + M\left( 1+ \frac{M}{D}\right)\right\} \\
& \simeq \frac{e^{-M}}{M!}(1+M)D^M
\end{aligned}
となるのでこれはD^Mが支配的になる。反対にM \gg Dの条件下では文字を入れ替えた\displaystyle \frac{e^{-D}}{D!}(1+D)M^Dとなり、M^Dが支配的になる。
数値的に評価するとD=10のときN(10, 3) = 286, D=100のとき、\displaystyle N(100,3) = \frac{103!}{100!3!} = 176851となる(ちなみにスターリングの公式を用いると\displaystyle N(100,3) \simeq \frac{e^{-3}}{3!}(1+3)100^3 = 33201.7くらいなのでまだこの近似式は使えない。もっと大きな数になってくるとオーダーは揃うっぽい。)
演習 1.17
ガンマ関数は
\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u \tag{1.141}
で定義される.部分積分を使って関係式\Gamma(x+1) = x\Gamma(x)を証明せよ.また\Gamma(1)=1を示し,xが整数なら\Gamma(x+1)=x!となることを示せ.
\Gamma(x+1)について部分積分を行うと、
\begin{aligned}
\Gamma(x+1) &= \int_{0}^{\infty} u^x(-e^{-u})^{\prime} du \\
&= \left [ -u^xe^{-u} \right]_{0}^{\infty} + x \int_{0}^{\infty}u^{x-1}e^{-u} du \\
&= (0 - 0) + x \Gamma(x) \\
&= x \Gamma(x)
\end{aligned}
となる。(公式 \displaystyle \lim_{u \to \infty} u e^{-u} = \displaystyle \lim_{u \to \infty} \frac{u}{e^u} = 0 に注意)
また,x=1を代入すると
\Gamma(1) = \int_{0}^{\infty}1\cdot e^{-u}du=\left[ -e^{-u} \right]_{0}^{\infty}=1
これを用いると,x \ge 1の整数xに対して
\begin{aligned}
\Gamma(x+1) &= x \Gamma(x)\\
&= x (x-1) (x-2) \cdots 2 \cdot 1 \cdot \Gamma(1) \\
&= x!
\end{aligned}
となる.
※ ガンマ関数は階乗の概念を複素数全体に拡張した(複素階乗ともいう)特殊関数である。 (https://ja.wikipedia.org/wiki/ガンマ関数)
演習 1.18
D次元の単位球の表面積S_D,体積V_Dを導くのに
I=\left(2 \pi \sigma^{2}\right)^{1 / 2} \tag{1.126}
を使うことができる.これにはまず,直交座標から極座標への変換から導かれる
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=S_{D} \int_{0}^{\infty} e^{-r^{2}} r^{D-1} \mathrm{d} r \tag{1.142}
という事実を考える.ガンマ関数の定義(1.141)と(1.126)から,この式の両辺を評価し,
S_{D}=\frac{2 \pi^{D / 2}}{\Gamma(D / 2)} \tag{1.143}
を示せ.次に半径0から1まで積分し,D次元単位球の体積が
V_D = \frac{S_D}{D} \tag{1.144}
で与えられることを示せ.最後に\Gamma(1)=1および\Gamma(3/2)=\sqrt{\pi} / 2から,(1.143)と(1.144)がD=2およびD=3の通常の表現に帰着されることを示せ.
Wikipediaの超平面や http://www.oit.ac.jp/ge/~nakano/Ex-0002.pdf なども参照。
(1.126)式の\displaystyle \int_{-\infty}^{\infty}\exp\left( -\frac{1}{2\sigma^2}x^2\right)dx = \sqrt{2\pi\sigma^2}をうまく使う.
(1.142)式の左辺の形にするために\sigma^2 = 1/2を代入すると,
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i} = \left( \sqrt{2\pi\cdot (1/2)} \right)^D = \pi^{D/2}
となる。一方で(1.142)式の右辺はガンマ関数の形なので(1.141)式についてu=r^2を代入すると、du=2rdrなので
\begin{aligned}
\Gamma(D/2) &= \int_{0}^{\infty}r^{D-2}e^{-r^2}\cdot 2rdr \\
&= 2\int_{0}^{\infty}r^{D-1}e^{-r^2}dr
\end{aligned}
よって、\displaystyle \int_{0}^{\infty}r^{D-1}e^{-r^2}dr = \frac{\Gamma (D/2)}{2}である。
(1.142)式を成立させるためのS_Dは
S_D = \frac{2}{\Gamma(D/2)}\cdot \pi^{D/2} = \frac{2\pi^{D/2}}{\Gamma(D/2)}
となり,(1.143)式が示された.
ここで,次元の考察からD次元球の表面積と体積は
S_D(r) = S_D(1)r^{D-1},\hspace{1em}V_D(r) = V_D(1)r^D
と書けることに注意する.rが0 \to 1を動いて全表面積を積分すればV_D(1)になることを利用して,
V_D(1) = \int_{0}^{1}S_D(1)r^{D-1}dr = S_D(1)\left[ \frac{r^D}{D} \right]_{0}^{1} = \frac{S_D}{D}
もしくは、V_D(r) = V_D(1)r^D の両辺をrで微分すると、
S_D(r) = S_D(1)r^{D-1} より、
S_D(1)r^{D-1} = V_D(1)Dr^{D-1}
これより,V_D = S_D/Dを得る.\Gamma(1)=1, \Gamma(3/2) = \pi / 2を用いると、S_2 = 2\pi, V_2 = \pi, S_3 = 4\pi,V_3 = \frac{4\pi}{3}となり、D=2, D=3で見慣れた式になることがわかる.
(こちらの演習では、S_D = S_D(1), V_D = V_D(1)と定義していることに注意する。)
演習 1.19
D次元の半径aの球と,同じ中心を持つ一辺2$a$の超立方体を考える.球面は超立方体の各面の中心で接している.演習問題1.18の結果を使って,球の体積と立方体の体積の比が
\frac{球の体積}{立方体の体積}=\frac{\pi^{D / 2}}{D 2^{D-1} \Gamma(D / 2)} \tag{1.145}
で与えられることを示せ.スターリングの公式
\Gamma(x+1) \simeq(2 \pi)^{1 / 2} e^{-x} x^{x+1 / 2} \tag{1.146}
がx \gg 1で成り立つことを使ってD \to \inftyの極限で比の値(1.145)が0に収束することを示せ.また,超立方体の中心から1つの頂点までの距離を中心から側面までの距離で割った比が\sqrt{D}となることを示し,D \to \inftyのとき\inftyに発散することを示せ.これらの結果から,高次元空間では立方体の体積のほとんどはたくさんの頂点に集中し,非常に長い「スパイク」になっていることがわかる!
演習問題1.18の結果から、D次元の半径aの球の体積は\displaystyle \frac{2 \pi^{D / 2}}{\Gamma(D / 2)}a^{D}である。また、D次元の一辺2aの超立方体の体積は(2a)^{D}である。よって、その比率は
\frac{\pi^{D / 2}}{D 2^{D-1} \Gamma(D / 2)}
となる。これをf(D)とする。
スターリングの公式を用いると、
\begin{aligned}
f(D) &= \frac{\pi^{D/2}}{2^{D}\Gamma{\left(\frac{D}{2}+1 \right)}} \\
&\simeq \frac{\pi^{D/2}}{2^{D}\cdot\sqrt{2\pi} \cdot e^{-D/2}\cdot \left( \frac{D}{2} \right)^{\frac{D+1}{2}}} \\
&= \frac{1}{\sqrt{\pi D}}\cdot \left( \frac{\pi e}{2D} \right)^{\frac{D}{2}}
\end{aligned}
となるので、D \to \inftyでf(D) \to 0となる。
超立方体の中心から側面までの距離はaで、中心から1つの頂点までの距離は\sqrt{D}aである(D=2で\sqrt{2}a, D=3で\sqrt{3}aとなることと合致する)。よって比は\sqrt{D}となる。このときD \to \inftyでこの比\sqrt{D}は\inftyに発散することがわかる。
このことは高次元になればなるほど超立方体の体積が角に集中することになり、その角は非常に長いスパイク状であるという帰結を表している。
参考:https://windfall.hatenablog.com/entry/2015/07/02/084623 球面集中現象とも。
演習 1.20
この演習問題では高次元ガウス分布の振る舞いを扱う.D次元ガウス分布
p(\mathbf{x})=\frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{\|\mathbf{x}\|^{2}}{2 \sigma^{2}}\right) \tag{1.147}
を考えよう.極座標系で,角度方向については積分し,半径に関する密度を求めたい.このために,半径rにある厚さ\epsilonの薄皮に関して\mathbf{x}の確率密度の積分をとると,\epsilon \ll 1のときp(r)\epsilonとなることを示せ(注:確率密度関数の添え字が(簡略化のため)省略されていて少々紛らわしいが,p(r)は半径rを確率変数と見たときの確率密度,p(\mathbf{x})は\mathbf{x}を確率変数と見たときの確率密度を表すことに注意されたい).ただし,
p(r)=\frac{S_{D} r^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \tag{1.148}
であり,S_DはD次元単位球の表面積である関数p(r)が1つの停留点を持ち,Dが大きいとき,\widehat{r} \simeq \sqrt{D} \sigmaにあることを示せ.\epsilon \ll \widehat{r}についてp(\widehat{r}+\epsilon)を考え,Dが大きいとき
p(\widehat{r}+\epsilon)=p(\widehat{r}) \exp \left(-\frac{\epsilon^{2}}{\sigma^{2}}\right) \tag{1.149}
となることを示せ.これから\widehat{r}が確率密度の最大値を与える半径となり,p(r)が\hat{r}での最大値から\sigmaの長さスケールで指数的に減衰していることがわかる.我々はすでに,Dが大きいとき\sigma \ll \widehat{r}であることを見てきたので,ほとんどの確率質量が大きな半径の薄皮に集中していることがわかる.最後に,\mathbf{x}の確率密度p(\mathbf{x})は,半径\hat{r}にある地点よりも,原点での方が\exp (D/2)倍大きいことを示せ.このことから,ほとんどの高次元ガウス分布の確率質量は\mathbf{x}の確率密度の高いところとは異なる半径のところにあることがわかる.後の章でモデルパラメータのベイズ推論を考える際に,高次元空間の分布のこの性質を使って重要な結論を導くことになる.
混乱を避けるため,以下ではp(\mathbf{x})をp_{\mathbf{x}}(\mathbf{x}),p(r)をp_r(r)と表す.
まず,半径r,厚さ\epsilonの薄皮の体積を求める.
S_DはD次元単位超球の表面積なので,半径rの位置での表面積はS_D r^{D-1}となる.\epsilon \ll 1の条件下では近似的に表面積が一定であると考えて良いので,薄皮の体積はS_D r^{D-1}\epsilonとなる.
次に,p_{\mathbf{x}}(\mathbf{x})を薄皮(shell)に関して積分する.薄皮なので確率密度も一定と見なせるので
\begin{aligned}
\int_{shell} p_{\mathbf{x}}(\mathbf{x}) \mathrm{d} \mathbf{x} \simeq & ~ p_{\mathbf{x}}(\mathbf{x}=r) S_D r^{D-1}\epsilon \\
=& \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) S_D r^{D-1}\epsilon \\
=& p_r(r)\epsilon \\
\end{aligned}
となる.
また,(1.148)をrで微分すると
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d} r} p_r(r) =& \frac{\mathrm{d}}{\mathrm{d} r} \left\{ \frac{S_{D} r^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \right\}\\
=& \frac{S_{D}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \left\{ (D-1)r^{D-2} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) + r^{D-1} \left(-\frac{r}{\sigma^{2}}\right) \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \right\} \\
=& \frac{S_{D}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \left\{ (D-1)r^{D-2} - \frac{r^D}{\sigma^{2}} \right\} \\
\end{aligned}
となり,これが0となるときのrを\hat{r}とすると
\begin{aligned}
& (D-1)\hat{r}^{D-2} - \frac{\hat{r}^D}{\sigma^{2}} = 0 \\
\Leftrightarrow ~ & \hat{r} = \sigma \sqrt{D-1}
\end{aligned}
ここでD \gg 1とすると
\hat{r} \simeq \sigma \sqrt{D}
となる.
次に,p_r(\hat{r}+\epsilon)を考える.
\begin{aligned}
p_r(\hat{r}+\epsilon) =& \frac{S_{D} (\hat{r}+\epsilon)^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{(\hat{r}+\epsilon)^{2}}{2 \sigma^{2}}\right) \\
=& \frac{S_{D} \hat{r}^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{\hat{r}^{2}}{2 \sigma^{2}}\right) \left( 1 + \frac{\epsilon}{\hat{r}} \right)^{D-1} \exp \left(-\frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right) \\
=& p_r(\hat{r}) \left( 1 + \frac{\epsilon}{\hat{r}} \right)^{D-1} \exp \left(-\frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right) \\
=& p_r(\hat{r}) \exp \left\{ \ln \left( 1 + \frac{\epsilon}{\hat{r}} \right)^{D-1} - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} \\
=& p_r(\hat{r}) \exp \left\{ (D-1) \ln \left( 1 + \frac{\epsilon}{\hat{r}} \right) - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} \\
\end{aligned}
ここで\ln (1+x)のマクローリン展開より
\begin{aligned}
\ln (1+x) =& x - \frac{1}{2}x^2 + \frac{1}{3}x^3 - \cdots \\
\simeq& ~ x - \frac{1}{2}x^2
\end{aligned}
の近似を利用すると
\begin{aligned}
p_r(\hat{r}+\epsilon)
\simeq& ~ p_r(\hat{r}) \exp \left\{ (D-1) \left( \frac{\epsilon}{\hat{r}} - \frac{\epsilon^2}{2 \hat{r}^2} \right) - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} \\
=& p_r(\hat{r}) \exp \left\{ \frac{\hat{r}^2}{\sigma^2} \left( \frac{\epsilon}{\hat{r}} - \frac{\epsilon^2}{2 \hat{r}^2} \right) - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} ~(\because \hat{r} = \sigma \sqrt{D-1}) \\
=& p_r(\hat{r}) \exp \left(-\frac{\epsilon^{2}}{\sigma^{2}}\right) \\
\end{aligned}
となり,(1.149)が得られる.
また
\begin{aligned}
p_{\mathbf{x}}(\mathbf{x} = \mathbf{0}) =& \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \\
p_{\mathbf{x}}(\|\mathbf{x}\| = \hat{r}) =& \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{\hat{r}^{2}}{2 \sigma^{2}}\right) \\
\simeq & \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{D}{2}\right) ~ (D \gg 1) \\
\end{aligned}
であることより,確率密度p_{\mathbf{x}}(\mathbf{x})は半径\hat{r}にある地点での値p_{\mathbf{x}}(\|\mathbf{x}\| = \hat{r})に比べ,原点での方が\exp (D/2)倍大きいことが示された。
Discussion