🧠

PRML 第1章（1.1から1.20まで）解答例

2022/06/02に公開

prml

idea

はじめに

PRML解答例まとめを参照

演習 1.1

関数 $y(x, \mathbf{w})$ が多項式 $(1.1)$

y(x, \mathbf{w})=w_{0}+w_{1} x+w_{2} x^{2}+\cdots+w_{M} x^{M}=\sum_{j=0}^{M} w_{j} x^{j}

で与えられたときの $(1.2)$

E(\mathrm{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}

の二乗和誤差関数を考える。この誤差関数を最小にする係数 $\mathbf{w}=\left\{w_{i}\right\}$ は以下の線形方程式の解として与えられることを示せ．

\sum_{j=0}^{M} A_{i j} w_{j}=T_{i} \tag{1.122}

ただし、

A_{i j}=\sum_{n=1}^{N}\left(x_{n}\right)^{i+j},\hspace{1em}T_{i}=\sum_{n=1}^{N}\left(x_{n}\right)^{i} t_{n} \tag{1.123}

ここで，下付き添え字の $i$ や $j$ は成分を表し， $(x)^j$ は $x$ の $j$ 乗を表す．

$(1.2)$ に $(1.1)$ 式を代入すると

E(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{\sum_{j=0}^{M} w_{j} {x_{n}}^{j}-t_{n}\right\}^{2}

$E(\mathbf{w})$ を最小にする $w_i$ を求めるための微分を行うと

\begin{aligned} \frac{\partial E}{\partial w_{i}} &=\frac{1}{2} \sum_{n=1}^{N}\left\{2\left(\sum_{j=0}^{N} w_{j} x_{n}^{j}-t_{n}\right) x_{n}^{i}\right\} \\ &=\sum_{n=1}^{N}\left(x_{n}^{i} \sum_{j=0}^{M} w_{j} x_{n}^{j}\right)-\sum_{n=1}^{N} {t_n} {x_{n}}^{i} \end{aligned}

$\frac{\partial E}{\partial w_{i}}=0$ となるために,

\sum_{n=1}^{N}\left({x_{n}}^{i} \sum_{j=0}^{M} w_{j} x_{n}^j \right)=\underbrace{\sum_{n=1}^{N} t_{n} {x_{n}}^{i}}_{T_{i}}

\begin{aligned}(左辺) &=\sum_{n=1}^{N} {x_{n}}^{i}\left(w_{0} {x_{n}}^{0}+w_{1} {x_{n}}^{1}+\cdots+w_{M} {x_{n}}^{M}\right) \\ &=\sum_{n=1}^{N} (w_{0} {x_{n}}^{i}+w_{1} {x_{n}}^{i+1}+\cdots+w_{M} {x_n}^{i+M}) \\ &=\sum_{n=1}^{N} \sum_{j=0}^{M} {x_{n}}^{i+j} w_{j} \\ &=\sum_{j=0}^{M} (\sum_{n=1}^{N} {x_{n}}^{i+j} w_{j}) \\ &=\sum_{j=0}^{M} A_{i j} w_{j} \end{aligned}

よって示された。

演習 1.2

正則化された二乗和誤差関数 $(1.4)$

\widetilde{E}(\mathrm{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathrm{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathrm{w}\|^{2}

を最小にする係数 $w_i$ が満たす, $(1.122)$

\sum_{j=0}^{M} A_{i j} w_{j}=T_{i}

に類似した線形方程式系を書き下せ．

1.1 と同様に行う。

\tilde{E}(w)=\frac{1}{2} \sum_{n=1}^{N}\left(\sum_{j=0}^{M} w_{i} x_{n}^{j}-t_{n}\right)^{2}+\frac{\lambda}{2}\|\mathrm{w}\|^{2}

0=\frac{\partial \tilde{E}}{\partial w_{i}}=\sum_{n=1}^{N} x_{n}^{i} \sum_{j=0}^{M} w_{j} x_{n}^{j}+\lambda w_{i}-\sum_{n=1}^{N} x_{n}^{i} t_{n}

整理すると

\sum_{n=1}^{N}\left(x_{n}^{i} \sum_{j=0}^{n} w_{j} x_{n}^{j}\right)=T_{i}-\lambda w_{i} \\

\sum_{j=0}^{M} \sum_{n=1}^{N} x_{n}^{i+j} w_{j}=\underbrace{T_{i}-\lambda w_{j}}_{T_{i}^\prime} \\

\sum_{j=0}^{M} A_{i j} w_{j}=T_{i}^\prime

※別例（演習模範回答ーパターン認識と機械学習完全版を参考）

{\tilde{A}_{i j}}=A_{i j}+\lambda I_{i j}

と置くことにする。

$\frac{\partial \tilde{E}}{\partial w_{i}}=0$ となるためには、演習1.1同様に考えると、

\sum_{j=0}^{M} A_{i j} w_{j}+\lambda w_{i}＝\underbrace{\sum_{n=1}^{N} t_{n} {x_{n}}^{i}}_{T_{i}}

であれば良い。

ここで上式を代入すると、

\sum_{j=0}^{M} \tilde{A}_{i j} w_{j}＝T_{i}

と書ける。

演習 1.3

3個の色分けされた箱 $r$ (赤)， $b$ (青)， $g$ (緑)を考える. 箱 $r$ には3個のりんご，4個のオレンジ，3個のライムが入っており，箱 $b$ には1個のりんご， 1個のオレンジ, 0個のライムが入っており，箱 $g$ には3個のりんご， 3個のオレンジ, 4個のライムが入っている箱を $p(r)=0.2, p(b)=0.2, p(g)=0.6$ という確率でランダムに選び，果物を箱から1個取り出す（箱の中のものは等確率で選ばれるとする）とき，りんごを選び出す確率を求めよ．また，選んだ果物がオレンジであったとき，それが緑の箱から取り出されたものである確率はいくらか？

りんご, オレンジ, ライムを取り出すという事象をそれぞれ $A$ , $O$ , $L$ とすると,

p(A)=p(r) p(A|r)+p(b) p(A|b)+p(g) p(A|g)=0.34

また, 同様にオレンジを選び出す確率 $p(O)$ は,

\begin{aligned} p(O) &=p(O | r) p(r)+p(O | b) p(b)+p(O|g) p(g) \\ &=\frac{4}{10} \times 0.2+\frac{1}{2} \times 0.2+\frac{3}{10} \times 0.6=0.36 \end{aligned}

求める値「選んだ果物がオレンジであったとき，それが緑の箱から取り出されたものである確率」はベイズの定理を用いると

p(g|O)=\frac{p(O|g) p(g)}{p(O)}=\frac{3}{10}\times\frac{0.6}{0.36}=0.5

となる。

演習 1.4

連続変数 $x$ 上で定義された確率密度 $p_x(x)$ を考える. $x=g(y)$ により非線形変換を施すと密度は

\begin{aligned} p_{y}(y) &=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right| \\ &=p_{x}(g(y))\left|g^{\prime}(y)\right| \end{aligned} \tag{1.27}

の変換を受ける． $(1.27)$ を微分して $y$ に関する密度を最大にする位置 $\widehat{y}$ と $x$ に関する密度を最大にする位置 $\widehat{x}$ とが，ヤコビ因子の影響により一般には単純な $\widehat{x}=g(\widehat{y})$ という関係にないことを示せ．これは確率密度の最大値が，（通常の関数と異なり）変数の選択に依存することを示している．線形変換の場合には最大値の位置が変数自身と同じ変換を受けることを確かめよ．

定義より

p'_x(\hat{x})、p'_y(\hat{y})=0

である。

$p_y(y)=p_x(g(y))|g'(y)|$ を $y$ で微分すると $p'_y(y)=sp'_x(g(y))(g'(y))^2+sp_x(g(y))g''(y)$ である。（ただし、 $s=-1$ or $+1$ である)

$x=g(y)$ より、 $\hat{x}$ のときの $y$ を $\grave{y}$ とすると $\hat{x}=g(\grave{y})$ である。

p'_y(\grave{y})=sp'_x(g(\grave{y}))(g'(\grave{y}))^2+sp_x(g(\grave{y}))g''(\grave{y})

$p'_x(\hat{x})=p'_x(g(\grave{y}))=0$ であるから

p'_y(\grave{y})=0+sp_x(g(\grave{y}))g''(\grave{y})

一般に $sp_x(g(\grave{y}))g''(\grave{y}) \ne 0$ であるので $p'_y(\grave{y})\ne 0$ よって $\grave{y} \ne \hat{y}$ となり $\hat{x}=g(\hat{y})$ はかならずしも成り立たない。

ただし、 $x=g(y)$ が線形変換の場合、 $g''(y)=0$ となるので $p'_y(\grave{y})=0$ となり、 $\grave{y}=\hat{y}$ であるから $\hat{x}=g(\hat{y})$ になる。

演習 1.5

$(1.38)$ の定義

\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] \tag{1.38}

を使って $\mathrm{var}[f(x)]$ が

\operatorname{var}[f]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} \tag{1.39}

を満たすことを示せ．

\begin{aligned} \operatorname{var}[f(x)]&=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] \\ &= \mathbb{E}\left[ f(x)^2 + \left( \mathbb{E}[f(x)] \right)^2-2f(x)\mathbb{E}[f(x)]\right] \\ &= \mathbb{E}[f(x)^2] + \left( \mathbb{E}[f(x)]\right)^2 - 2\mathbb{E}[f(x)]\cdot \mathbb{E}[f(x)] \\ &= \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2 \end{aligned}

よって $(1.39)$ 式が示された．

演習 1.6

2つの変数 $x, y$ が独立なら，それらの共分散は $0$ になることを示せ．

$f(x), f(y), f(x, y)$ を変数 $x,y$ の確率密度関数と同時確率密度関数としよう,
変数 $x,y$ は独立なので

f(x, y)=f(x)f(y)

この式を $x,y$ の共分散に代入すると

\begin{aligned} \operatorname{cov}\left(x, y\right) &= \mathbb{E}_{x,y}[\left\{x-\mathbb{E}\left[x\right]\right\}\left\{y-\mathbb{E}\left[y\right]\right\}]\\ &= \mathbb{E}_{x,y}\left[x,y\right]-\mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xyf\left(x,y\right)dxdy -\mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xyf\left(x\right)f\left(y\right)dxdy -\mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\ &= \int_{-\infty}^{\infty}xf\left(x\right)dx \cdot \int_{-\infty}^{\infty}yf\left(y\right)dy - \mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\ &= \mathbb{E}\left[x\right]\mathbb{E}\left[y\right] - \mathbb{E}\left[x\right]\mathbb{E}\left[y\right]\\ &= 0 \end{aligned}

となる.

演習 1.7

この演習問題では,1変数ガウス分布に関する規格化条件

\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1 \tag{1.48}

を証明する. このために, 積分

I=\int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}\right) \mathrm{d} x　\tag{1.124}

を考え，その2乗を

I^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) d x d y　\tag{1.125}

の形で書いて評価する. 直交座標系 $(x,y)$ から極座標 $(r,\theta)$ に変換し, $u=r^2$ を代入する. $\theta$ と $u$ に関する積分を実行し, 両辺の平方根を取ることにより,

I=\left(2 \pi \sigma^{2}\right)^{1 / 2}　\tag{1.126}

が得られることを示せ.最後にこの結果からガウス分布 $\mathcal{N}\left(x | \mu, \sigma^{2}\right)$ が規格化されていることを示せ.

極座標系 $x=r\cos\theta, y=r\sin\theta$ とおいて、(1.125)式に代入すると、 $f(r,\theta)=f(x,y)\left| \frac{\partial(x,y)}{\partial(r,\theta)} \right|$ なので、このヤコビアン $\left| \frac{\partial(x,y)}{\partial(r,\theta)} \right|$ は

\frac{\partial(x, y)}{\partial(r, \theta)}=\left|\begin{array}{ll}\frac{\partial x}{\partial r} & \frac{\partial x}{\partial \theta} \\ \frac{\partial y}{\partial r} & \frac{\partial y}{\partial \theta}\end{array}\right|=\left|\begin{array}{cc}\cos \theta & -r \sin \theta \\ \sin \theta & r \cos \theta\end{array}\right|=r\left(\cos ^{2} \theta+\sin ^{2} \theta\right)=r

なので、

I^2 = \int_{0}^{2\pi}\int_{0}^{\infty}\exp\left(-\frac{1}{2\sigma^2}r^2 \right) r dr d\theta

$u=r^2$ と変換すると、 $du=2rdr$ なので

\begin{aligned} I^2 &= \int_{0}^{2\pi}\int_{0}^{\infty}\exp\left(-\frac{1}{2\sigma^2}u \right) \cdot \frac{1}{2}du d\theta \\ &= \pi \int_{0}^{\infty}\exp{\left( -\frac{1}{2\sigma^2}u\right)}dud\theta \\ &= \pi \left[ \exp{\left(-\frac{1}{2\sigma^2}u\right)}\cdot (-2\sigma^2)\right]_{0}^{\infty} \\ &= -2\pi\sigma^2(e^{-\infty} - e^0) = 2\pi\sigma^2 \end{aligned}

両辺の平方根をとって式 $(1.126)$ の $I=\sqrt{2\pi\sigma^2}$ を得る。

また、ガウス積分の式は積分範囲が $\mu$ だけずれても $-\infty \to \infty$ は変わらないので、

\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) dx=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \int_{-\infty}^{\infty} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} dx= \frac{1}{\sqrt{2\pi\sigma^2}} \cdot \sqrt{2\pi\sigma^2}=1

となり、正規化されていることが示された。

演習 1.8

変数変換を使って1変数ガウス分布

\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} \tag{1.46}

が

\mathbb{E}[x]=\int^{\infty}_{-\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu \tag{1.49}

を満たすことを確かめよ. 次に, 規格化条件

\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) \mathrm{d} x=1 \tag{1.48}

の両辺を $\sigma^2$ に関して微分し，ガウス分布が

\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2} \tag{1.50}

を満たすことを確かめよ. 最後に

\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2} \tag{1.51}

が成り立つことを示せ.

$(1.46)$ より

\mathbb{E}[x] = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi\sigma^2}}\exp{(-\frac{1}{2\sigma^2}(x-\mu)^2)}dx

ここで、 $y=x-\mu$ とおくと

\begin{aligned} \mathbb{E}[x]&=\int_{-\infty}^{\infty}\frac{y+\mu}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy \\ &=\int_{-\infty}^{\infty}\frac{y}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy+\mu\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy \\ &=\int_{-\infty}^{\infty}\frac{y}{\sqrt{2\pi\sigma^2}}\exp{\left( -\frac{y^2}{2\sigma^2} \right)}dy+\mu\int_{-\infty}^{\infty}\mathcal{N}(y|0, \sigma^2)dy \end{aligned}

第1項は奇関数なので $0$ であり、 $(1.48)$ より

\begin{aligned}\mathbb{E}[x]&=0+\mu・1\\&=\mu\end{aligned}

ゆえに $(1.46)$ は $(1.49)$ を満たす。

次に規格化条件に関して、 $(1.46)$ と $(1.48)$ より

\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp{\left(-\frac{1}{2\sigma^2}(x-\mu)^2 \right)}dx=1

\int_{-\infty}^{\infty}\exp{\left( -\frac{1}{2\sigma^2}(x-\mu)^2 \right)}dx=\sqrt{2\pi\sigma^2}

両辺を $\sigma^2$ で微分すると

\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{2(\sigma^2)^2}\exp{(-\frac{1}{2\sigma^2}(x-\mu)^2)}dx=(2\pi)^\frac{1}{2}\frac{(\sigma^2)^-\frac{1}{2}}{2}

整理すると

\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi\sigma^2}}\exp{(-\frac{1}{2\sigma^2}(x-\mu)^2)}dx=\sigma^2

ここで、 $(左辺)=\mathbb{E}[(x-\mu)^2]$ なので

\mathbb{E}[(x-\mu)^2]=\sigma^2

\mathbb{E}[x^2-2\mu x+\mu^2]=\sigma^2

\mathbb{E}[x^2]-2\mu\mathbb{E}[x]+\mu^2=\sigma^2

$(1.49)$ より $\mathbb{E}[x]=\mu$ なので

\mathbb{E}[x^2]-2\mu^2+\mu^2=\sigma^2

\mathbb{E}[x^2]=\mu^2+\sigma^2

ゆえにガウス分布は $(1.50)$ を満たす。

また $(1.51)$ について、 $(1.49)$ と $(1.50)$ より

\begin{aligned} \operatorname{var}[x]&=\mathbb{E}[x^2]-\mathbb{E}[x]^2\\&=(\mu^2+\sigma^2)-\mu^2\\&=\sigma^2 \end{aligned}

演習 1.9

ガウス分布

\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} \tag{1.46}

のモード（つまり分布が最大となる $x$ の値）が, $\mu$ で与えられることを示せ. 同様に, 多変量ガウス分布

\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right) = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} \tag{1.52}

のモードは $\boldsymbol{\mu}$ で与えられることを示せ.

\mathcal{N}\left(x | \mu, \sigma^{2}\right) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}

の概形から $x$ のモードは $\exp$ の中身が最大の時、つまり $x=\mu$ となるような $x$ であるとわかる。厳密には $x$ について微分をとって0になるときを計算すればよい。

また、多変量ガウス分布

\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right) = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}

について、これを $\mathbf{x}$ で偏微分すると

$\frac{\partial}{\partial \mathbf{x}} \mathbf{x}^\mathrm{T}\mathbf{a}\mathbf{x} = (\mathbf{a}+\mathbf{a}^\mathrm{T})\mathbf{x}$ (1)と $\mathbf{\Sigma}$ が対称行列であることを用いて

\begin{aligned} \frac{\partial}{\partial \mathbf{x}}\mathcal{N}\left(\mathbf{x} | \mu, \mathbf{\Sigma}\right) &= -\frac{1}{2}\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right)\nabla_{\mathbf{x}}\{(\mathbf{x}-\boldsymbol{\mu})^\mathrm{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\}\\ &=-\mathcal{N}\left(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}\right)\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) \end{aligned}

となり最大値は $\mathbf{x}=\boldsymbol{\mu}$ のときであり、このときモードをとる。

1,統計のための行列代数上巻 P.355(3.7)式参照

演習 1.10

2変数 $x,z$ が統計的に独立であるとする. それらの和の平均と分散が

\begin{aligned} \mathbb{E}[x+z] &=\mathbb{E}[x]+\mathbb{E}[z] \\ \operatorname{var}[x+z] &=\operatorname{var}[x]+\operatorname{var}[z] \end{aligned}

を満たすことを示せ。

$x$ と $z$ は独立より $p(x, z) = p(x)p(z)$ であることに注意すると

$\mathbb{E}[x+z]$ は

\begin{aligned} \mathbb{E}[x+z] &= \int\int(x+z)p(x, z)\mathrm{d}x\mathrm{d}z \\ &= \int\int(x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z \\ &= \int\int xp(x)p(z)\mathrm{d}x\mathrm{d}z + \int\int zp(x)p(z)\mathrm{d}x\mathrm{d}z \\ &= \int xp(x)\mathrm{d}x \int p(z)\mathrm{d}z + \int zp(z)\mathrm{d}z \int p(x)\mathrm{d}x \\ &= \int xp(x)\mathrm{d}x + \int zp(z)\mathrm{d}z \\ &= \mathbb{E}[x] + \mathbb{E}[z] \end{aligned}

となる。

また、上式を利用すると $\mathrm{var}[x+z]$ は

\begin{aligned} \mathrm{var}[x+z] &= \mathbb{E}[\{(x+z) - \mathbb{E}[x+z]\}^2] \\ &= \int\int(x+z - \mathbb{E}[x+z])^2p(x, z)\mathrm{d}x\mathrm{d}z \\ &= \int\int(x-\mathbb{E}[x] + z-\mathbb{E}[z])^2p(x)p(z)\mathrm{d}x\mathrm{d}z \\ &= \int\int\{(x-\mathbb{E}[x])^2 + (z-\mathbb{E}[z])^2 + 2(x-\mathbb{E}[x])(z-\mathbb{E}[z])\}p(x)p(z)\mathrm{d}x\mathrm{d}z \\ &= \int(x-\mathbb{E}[x])^2p(x)\mathrm{d}x\int p(z)\mathrm{d}z + \int(z-\mathbb{E}[z])^2p(z)\mathrm{d}z\int p(x)\mathrm{d}x \\&+ 2\int\int(x-\mathbb{E}[x])(z-\mathbb{E}[z])p(x)p(z)\mathrm{d}x\mathrm{d}z \\ \end{aligned}

ここで第3項について

\begin{aligned} (第3項) &=2\int\int(x-\mathbb{E}[x])(z-\mathbb{E}[z])p(x)p(z)\mathrm{d}x\mathrm{d}z \\ &= 2\int(x-\mathbb{E}[x])p(x)\mathrm{d}x\int(z-\mathbb{E}[z])p(z)\mathrm{d}z \\ &= 2(\mathbb{E}[x]-\mathbb{E}[x])(\mathbb{E}[z]-\mathbb{E}[z]) = 0 \end{aligned}

であるため

\begin{aligned} \mathrm{var}[x+z] &= \int(x-\mathbb{E}[x])^2p(x)\mathrm{d}x\int p(z)\mathrm{d}z + \int(z-\mathbb{E}[z])^2p(z)\mathrm{d}z\int p(x)\mathrm{d}x \\ &= \mathrm{var}[x] + \mathrm{var}[z] \end{aligned}

となる。

演習 1.11

対数尤度関数

\begin{aligned} \ln p(\bf{x}|\mu,\sigma^2) &= - \frac{1}{2\sigma^2} \sum_{n=1}^{N} (x_n-\mu)^2 - \frac{N}{2} \ln \sigma^2 - \frac{N}{2} \ln (2\pi) \end{aligned} \tag{1.54}

の $\mu$ と $\sigma^2$ に関する微分を $0$ とおいて，

\begin{aligned} \mu_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} x_n \end{aligned} \tag{1.55}

と

\begin{aligned} \sigma^2_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu)^2 \end{aligned} \tag{1.56}

を確かめよ．

対数尤度関数 $(1.54)$ を $f$ と置く。
$\mu$ で微分すると、第2・第3項は消えて

\begin{aligned} \frac{\partial f}{\partial \mu} &= \frac{1}{\sigma^2} \sum_{n=1}^{N} (x_n-\mu) = \frac{1}{\sigma^2} \sum_{n=1}^{N} x_n - \frac{1}{\sigma^2} N\mu \end{aligned}

これを0と置くことで、 $\mu$ の最尤解 $(1.55)$

\begin{aligned} \mu_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} x_n \end{aligned}

を得る。

$\sigma^2$ で微分すると、第3項は消えて

\begin{aligned} \frac{\partial f}{\partial \sigma^2} &= \frac{1}{2(\sigma^2)^2} \sum_{n=1}^{N} (x_n-\mu)^2 - \frac{N}{2\sigma^2} \end{aligned}

これを0と置くことで、 $\sigma^2$ の最尤解 $(1.56)$

\begin{aligned} \sigma^2_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu)^2 \end{aligned}

を得る。

$\mu$ と $\sigma^2$ について同時に最尤推定を行うことで、 $\mu_{\mathrm{ML}}$ を $\sigma^2_{\mathrm{ML}}$ に代入して

\begin{aligned} \sigma^2_{\mathrm{ML}} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{\mathrm{ML}})^2 \end{aligned}

を得る。

演習 1.12

\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu \tag{1.49}

と

\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2} \tag{1.50}

を使って

\mathbb{E}\left[x_{n} x_{m}\right]=\mu^{2}+I_{n m} \sigma^{2} \tag{1.130}

を示せ．ただし， $x_n$ と $x_m$ は平均 $\mu$ ，分散 $\sigma^2$ のガウス分布から生成されたデータ点を表し， $I_{nm}$ は $n=m$ のとき $I_{nm}=1$ でそれ以外は $I_{nm}=0$ であるとする．これから

\mathbb{E}\left[\mu_{\mathrm{ML}}\right]=\mu \tag{1.57}

と

\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\left(\frac{N-1}{N}\right) \sigma^{2} \tag{1.58}

を証明せよ．

まず， $\mathbb E[x_nx_m]$ について

$n=m$ のとき

\mathbb E[x_nx_m] = \mathbb E[x_n^2] = \mu^2 + \sigma^2

$n \ne m$ のとき， $x_n$ と $x_m$ は独立であるから

\mathbb E[x_nx_m] = \mathbb E[x_n]\mathbb E[x_m] = \mu^2

まとめると

\mathbb E[x_nx_m] = \mu^2 + I_{nm}\sigma^2

となる．次に， $\mathbb E[\mu_{\mathrm{ML}}]$ について

\begin{aligned} \mathbb E[\mu_{\mathrm{ML}}] &= \mathbb E\left[\frac{1}{N}\sum_{n=1}^N x_n\right] \\ &= \frac{1}{N}\sum_{n=1}^N \mathbb E\left[x_n\right] \\ &= \frac{1}{N}N \mu \\ &= \mu \\ \end{aligned}

となる．また， $\mathbb E[\sigma_{\mathrm{ML}}^2]$ について

\begin{aligned} \mathbb E[\sigma_{\mathrm{ML}}^2] &= \mathbb E\left[\frac{1}{N}\sum_{n=1}^N (x_n - \mu_{\mathrm{ML}})^2\right] \\ &= \mathbb E \left[\frac{1}{N}\sum_{n=1}^N \left(x_n - \frac{1}{N}\sum_{m=1}^N x_m\right)^2\right] \\ &= \frac{1}{N} \sum_{n=1}^N \mathbb E \left[x_n^2 - \frac{2}{N}x_n\sum_{m=1}^N x_m + \frac{1}{N^2}\left(\sum_{m=1}^N x_m\right)^2\right] \\ &= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \mathbb E \left[x_n\sum_{m=1}^N x_m \right] + \frac{1}{N^2} \mathbb E \left[\left(\sum_{m=1}^N x_m\right)^2\right]\right\} \\ &= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \sum_{m=1}^N \mathbb E \left[x_n x_m \right] + \frac{1}{N^2} \mathbb E \left[\left(\sum_{m=1}^N x_m\right)^2\right]\right\} \\ \end{aligned}

ここで

\begin{aligned} \left(\sum_{m=1}^N x_m\right)^2 &= (x_1+x_2+\cdots+x_N)(x_1+x_2+\cdots+x_N) \\ &= (x_1^2+x_1x_2+\cdots+x_1x_N) + (x_1x_2+x_2^2+\cdots+x_2x_N) + \cdots + (x_1x_N+x_2x_N+\cdots+x_N^2)\\ &= \sum_{k=1}^N \sum_{l=1}^N x_k x_l \end{aligned}

より

\begin{aligned} \mathbb E[\sigma_{\mathrm{ML}}^2] &= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \sum_{m=1}^N \mathbb E \left[x_n x_m \right] + \frac{1}{N^2} \mathbb E \left[\sum_{k=1}^N \sum_{l=1}^N x_k x_l\right]\right\} \\ &= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - \frac{2}{N} \sum_{m=1}^N \mathbb E \left[x_n x_m \right] + \frac{1}{N^2} \sum_{k=1}^N \sum_{l=1}^N \mathbb E \left[x_k x_l\right]\right\} \\ &= \frac{1}{N} \sum_{n=1}^N \left\{(\mu^2 + \sigma^2) - \frac{2}{N} \left(\mu^2 + \sigma^2 + (N-1)\mu^2\right) + \frac{1}{N^2} \left(N(\mu^2 + \sigma^2) + N(N-1)\mu^2 \right)\right\} \\ &= \frac{1}{N} \sum_{n=1}^N \left(\mu^2 + \sigma^2 - 2\mu^2 - \frac{2}{N} \sigma^2 + \mu^2 + \frac{1}{N} \sigma^2\right) \\ &= \frac{1}{N} \sum_{n=1}^N \left(\frac{N-1}{N} \sigma^2 \right) \\ &= \frac{1}{N} N \left(\frac{N-1}{N} \sigma^2 \right) \\ &= \frac{N-1}{N} \sigma^2 \\ \end{aligned}

となる。

演習 1.13

ガウス分布の分散の推定値

\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2} \tag{1.56}

において，最尤推定値 $\mu_{\mathrm{ML}}$ を真の平均の値 $\mu$ で置き換えよう．この推定量は期待値が真の分散 $\sigma^2$ となる性質を持つことを示せ．

$\mu_{\mathrm {ML}}$ を真の平均 $\mu$ で置き換えたものを $\hat\sigma_{\mathrm{ML}}^2$ とし，その期待値をとると

\begin{aligned} \mathbb E[\hat\sigma_{\mathrm{ML}}^2] &= \mathbb E\left[\frac{1}{N}\sum_{n=1}^N (x_n - \mu)^2\right] \\ &= \frac{1}{N} \sum_{n=1}^N \mathbb E \left[x_n^2 - 2x_n\mu + \mu^2 \right] \\ &= \frac{1}{N} \sum_{n=1}^N \left\{\mathbb E [x_n^2] - 2\mu \mathbb E \left[x_n \right] + \mu^2 \right\} \\ &= \frac{1}{N} \sum_{n=1}^N \left(\mu^2+\sigma^2 - 2\mu \mu + \mu^2 \right) \\ &= \sigma^2 \end{aligned}

となる．

演習 1.14

$w_{ij}$ を成分とする任意の正方行列は $w_{ij}=w_{ij}^{\mathrm S}$ + $w_{ij}^{\mathrm A}$ という形に書けることを示せ．ただし, $w_{ij}^{\mathrm S}$ と $w_{ij}^{\mathrm A}$ はそれぞれ対称行列と反対称行列の成分であり $w_{ij}^{\mathrm S}=w_{ji}^{\mathrm S}$ および $w_{ij}^{\mathrm A}=-w_{ji}^{\mathrm A}$ がすべての $i, j$ について成り立つ．さてここで， $D$ 次元における高次の多項式の2次の項

\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j} \tag{1.131}

を考えると，

\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}=\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j}^{\mathrm S} x_{i} x_{j} \tag{1.132}

となり，反対称行列の寄与が消えることを示せ．このことから，一般性を失うことなく，係数 $w_{ij}$ は対称に選んでよく，すべての $D^2$ の成分の選び方が独立ではないことがわかる．これを使って，行列 $w_{ij}^{\mathrm S}$ の独立パラメータの数が $D(D+1)/2$ で与えられることを示せ．

$w_{ij}=w_{ij}^{\mathrm S}+w_{ij}^{\mathrm A}$ であることを示す。
これは任意の正方行列の $i$ 行 $j$ 列めの成分を $w_{ij}$ としたとき、これを使って $w_{ij}^{\mathrm S}=\frac{1}{2}(w_{ij}+w_{ji})$ とおくと、 $w_{ij}^{\mathrm S}$ は常に対称行列となる。同様に、 $w_{ij}^{\mathrm A}=\frac{1}{2}(w_{ij}-w_{ji})$ とおくと、この $w_{ij}^{\mathrm A}$ は常に反対称行列となる。これらを用いると

w_{ij}=w_{ij}^{\mathrm S}+w_{ij}^{\mathrm A}

となるので、任意の正方行列は、 $w_{ij}^{\mathrm S}$ を成分とする対称行列と、 $w_{ij}^{\mathrm A}$ を成分とする反対称行列の和で必ず表現できることが示された。

ここで $w_{ij}^{\mathrm A}$ について、

\sum_{i=1}^{D} \sum_{j=1}^{D} w_{ij}^{\mathrm A} x_{i} x_{j} = \sum_{i=1}^{D} \sum_{j=1}^{D} \frac{1}{2}(w_{ij}-w_{ji}) x_{i} x_{j} = 0

となるため、

\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}=\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j}^{\mathrm S} x_{i} x_{j}

が常に成り立つことが示される。また、この結果から二次形式の係数行列は対称行列とおいても一般性が失われないという重要な帰結を得ることができる。

$w_{i j}^{\mathrm S}$ については、対角成分を挟んで成分が対称になっていなければならないので、この行列の独立なパラメータは $\displaystyle \sum_{n=1}^{D}n=\frac{D(D+1)}{2}$ 個である。

演習 1.15（難）

この演習問題と次の演習問題では，多項式の独立パラメータの数が多項式の次数 $M$ や入力空間の次元 $D$ に対してどのように増えるかを考える．まず， $D$ 次元の多項式の $M$ 次の項を書き下すと，

\sum_{i_1=1}^{D} \sum_{i_2=1}^{D} \cdots \sum_{i_{M=1}}^{D} w_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}} \tag{1.133}

となる．係数 $w_{i_{1}i_{2} \cdots i_{M}}$ は $D^M$ 個あるが,そのうち独立なパラメータの数は $x_{i_1}x_{i_2} \cdots x_{i_M}$ の多くの置換対称性からそれよりずっと少なくなる．始めに， $M$ 次の項を

\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \tilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}} \tag{1.134}

と書き直すことによって係数の冗長性を取り除けることを示せ．ただし， $\tilde{w}$ と $w$ の厳密な関係は陽に表す必要はないことに注意せよ．この結果を使って， $M$ 次における独立なパラメータの数、 $n(D, M)$ が

n(D, M)=\sum_{i=1}^{D} n(i, M-1) \tag{1.135}

という再帰的な関係を満たすことを示せ．さらに，数学的帰納法により以下の結果が成り立つことを示せ．

\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !} \tag{1.136}

これを示すには，まず $D=1$ と任意の $M$ の場合を $0!=1$ を使って証明し，次に
$D$ 次元で成り立っていると仮定して， $D+1$ 次元でも成り立つことを確かめればよい．最後に，上の２つの結果から，数学的帰納法により

n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !} \tag{1.137}

を示せ．これを示すには，まず $M=2$ と任意の $D\ge 1$ について正しいことを，演習問題1.14の結果との比較によって示し，次に， $(1.135)$ と $(1.136)$ を使って， $M-1$ 次で成り立てば $M$ 次でも成り立つことを示せばよい．

※ 問題文の意味が分かりにくいが、やろうとしていることは実はただの二項展開である。

問題が分かりにくいので、 $D=4, M=2$ として $x_1, x_2, x_3, x_4$ の4次元の多項式について2次の項を書き下すことを考える。 $(1.133)$ の記法に従うと

\sum_{i_1=1}^{4} \sum_{i_2=1}^{4} w_{i_{1} i_{2}} x_{i_{1}} x_{i_{2}} \tag{1.133}

と書けることになるが、この記法では例えば $w_{12}x_1 x_2$ と $w_{21}x_2 x_1$ が別々に現れて和をとる形になる。しかしかけ算の順序が交換可能であることを用いれば $(w_{12}+w_{21})x_2 x_1$ とまとめて書くことができる。

そこで、 $x$ の添字が常に $i_1 \ge i_2 \ge \cdots i_M$ となるようにし、その係数 $w$ の和をまとめて $\tilde{w}$ と書き直す（上の例では $\tilde{w}_{21} = w_{12} + w_{21}$ ）ことでも一般性は失われない。

以上から、 $(1.133)$ 式は

\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \tilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}} \tag{1.134}

のように書き直せることがわかる（ $\tilde{w}$ と $w$ の関係性を陽に表す必要はない）。

次に、この結果を用いると入力空間の次元 $D$ に対して $M$ 次における独立なパラメータの数というのは、すでに冗長性がなくなっているために

\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \tilde{w}_{i_{1} i_{2} \cdots i_{M}}

の $\tilde{w}$ の項の数と等しいことがわかる（※このへんでパスカルの三角形や二項展開のことが頭に思い浮かぶかもしれない）。すなわち

n(D,M) = \sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} 1

となるので、あとはこれを求めれば良い。

この式について $D \to i$ , $M \to M-1$ とすると

n(i, M-1)=\sum_{i_{1}=1}^{i} \sum_{i_{2}=1}^{i_{1}} \ldots \sum_{i_{(M-1)}=1}^{i_{(M-1)-1}} 1

となるので、 $(1.135)$ 式の右辺から計算すると

\begin{aligned} & \sum_{i=1}^{D} n(i, M-1) \\ =& \sum_{i=1}^{D} \sum_{i_{1}=1}^{i} \sum_{i_{2}=1}^{i_{1}} \ldots \sum_{i_{M-1}=1}^{i_{(M-1)-1}} 1 \\ =& \sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \sum_{i_{3}=1}^{i_{2}} \cdots \sum_{i_{M}=1}^{i_{M-1}} 1 \quad (\because i \rightarrow i_{1}, i_{n} \rightarrow i_{n+1}) \\ =&\ n(D, M) \end{aligned}

となり、 $(1.135)$ 式が成立することが示された。

後の数学的帰納法については……（書きかけ）

別解としては、結局のところ $n(D,M)$ の計算部分は多項式の二項展開と同じなので、異なる $D$ 個のパラメータから重複を許して $M$ 個とってくる場合の数と等しいことがわかる。すなわち

n(D, M) = { }_{D-1} \mathrm{H}_{M-1} = { }_{D+M-1} \mathrm{C}_{M} = \frac{(D+M-1)!}{(D-1)!M!}

であり、 $(1.137)$ 式が得られる。

演習 1.16（難）

演習問題1.15で， $M$ 次の $D$ 次元多項式の独立なパラメータの数が(1.135)となることを証明した．次に， $M$ 次までのすべての項における独立パラメータの総数 $N(D,M)$ を求めよう．まず $N(D,M)$ が

N(D, M)=\sum_{m=0}^{M} n(D, m) \tag{1.138}

を満たすことを示せ．ただし， $n(D,M)$ は $m$ 次の項における独立パラメータの数である．(1.137)の結果と数学的帰納法により，

N(D, M)=\frac{(D+M) !}{D ! M !} \tag{1.139}

を示せ．これを示すには，まず， $M=0$ と任意の $D \ge 1$ について成り立つことを証明してから， $M$ 次で成り立つなら $M+1$ 次で成り立つことを示せばよい．最後にスターリングの近似式，つまり $n$ が大きいとき

n ! \simeq n^{n} e^{-n} \tag{1.140}

が成り立つことを使って, $D \gg M$ のとき $N(D,M)$ が $D^M$ で大きくなり， $M \gg D$ のときは $M^D$ で大きくなることを示せ． $D$ 次元の3次多項式( $M=3$ )を考え，独立パラメータの総数を(i) $D=10$ (ii) $D=100$ のそれぞれの場合について数値的に評価せよ．これらは典型的な小スケールおよび中スケールの機械学習の応用に対応する．

演習1.15の結果から $D$ 次元多項式のある $M$ 次の独立なパラメータが $n(D,M)$ 個であることが求まったので、 $0 \le m \le M$ までの合計のパラメータ数は

N(D,M) = \sum_{m=0}^M n(D,m)

と書ける（証明になっていないけれど自明だと思う）。

次に数学的帰納法を用いて

N(D,M) =\frac{(D+M) !}{D ! M !}

すなわち演習1.15の結果を用いて

\sum_{m=0}^{M} \frac{(D+m-1) !}{(D-1) ! m !}=\frac{(D+M) !}{D ! M !} \tag{*}

であることを示す（ $D, M$ はそれぞれ $1, 0$ 以上の整数値）。

(i) $M=0$ のとき
$(左辺) = 1$ , $(右辺) = 1$ となるので成立する。

(ii) $M=k$ のとき $(*)$ が成立すると仮定する。このとき $M=k+1$ において

\begin{aligned} \sum_{m=0}^{k+1} \frac{(D+m-1) !}{(D-1) ! m !} &=\frac{(D+k) !}{(D-1) !(k+1) !}+\sum_{m=0}^{k} \frac{(D+m-1) !}{(D-1) ! m !} \\ &=\frac{(D+k) !}{(D-1) !(k+1) !}+\frac{(D+k) !}{D ! k !} \\ &=\frac{(D+k) !}{D !(k+1) !}\{D+(k+1)\} \\ &=\frac{(D+(k+1)) !}{D !(k+1) !} \end{aligned}

となるので、 $M=k+1$ のときも成立することが示された。

最後に、まず $D \gg M$ の条件下において、 $\frac{M}{D} \ll 1$ であることとスターリングの公式 $n! \simeq n^n e^{-n}$ を用いると

\begin{aligned} N(D, M) &=\frac{(D+M) !}{D ! M !} \\ & \simeq \frac{(D+M)^{D+M} e^{-D-M}}{D^{D} e^{-D} \cdot M !} \\ &=\frac{e^{-M}}{M ! D^{D}}(D+M)^{D+M} \\ &=\frac{D^{M} e^{-M}}{M !}\left(1+\frac{M}{D}\right)^{D+M} \\ & \simeq \frac{D^{M} e^{-M}}{M !}\left(1+\frac{M}{D}(D+M)\right) \\ &= \frac{D^M e^{-M}}{M!}\left\{ 1 + M\left( 1+ \frac{M}{D}\right)\right\} \\ & \simeq \frac{e^{-M}}{M!}(1+M)D^M \end{aligned}

となるのでこれは $D^M$ が支配的になる。反対に $M \gg D$ の条件下では文字を入れ替えた $\displaystyle \frac{e^{-D}}{D!}(1+D)M^D$ となり、 $M^D$ が支配的になる。

数値的に評価すると $D=10$ のとき $N(10, 3) = 286$ , $D=100$ のとき、 $\displaystyle N(100,3) = \frac{103!}{100!3!} = 176851$ となる（ちなみにスターリングの公式を用いると $\displaystyle N(100,3) \simeq \frac{e^{-3}}{3!}(1+3)100^3 = 33201.7$ くらいなのでまだこの近似式は使えない。もっと大きな数になってくるとオーダーは揃うっぽい。）

演習 1.17

ガンマ関数は

\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u \tag{1.141}

で定義される．部分積分を使って関係式 $\Gamma(x+1) = x\Gamma(x)$ を証明せよ．また $\Gamma(1)=1$ を示し， $x$ が整数なら $\Gamma(x+1)=x!$ となることを示せ．

$\Gamma(x+1)$ について部分積分を行うと、

\begin{aligned} \Gamma(x+1) &= \int_{0}^{\infty} u^x(-e^{-u})^{\prime} du \\ &= \left [ -u^xe^{-u} \right]_{0}^{\infty} + x \int_{0}^{\infty}u^{x-1}e^{-u} du \\ &= (0 - 0) + x \Gamma(x) \\ &= x \Gamma(x) \end{aligned}

となる。（公式 $\displaystyle \lim_{u \to \infty} u e^{-u} = \displaystyle \lim_{u \to \infty} \frac{u}{e^u} = 0$ に注意）

また， $x=1$ を代入すると

\Gamma(1) = \int_{0}^{\infty}1\cdot e^{-u}du=\left[ -e^{-u} \right]_{0}^{\infty}=1

これを用いると， $x \ge 1$ の整数 $x$ に対して

\begin{aligned} \Gamma(x+1) &= x \Gamma(x)\\ &= x (x-1) (x-2) \cdots 2 \cdot 1 \cdot \Gamma(1) \\ &= x! \end{aligned}

となる．

※ ガンマ関数は階乗の概念を複素数全体に拡張した（複素階乗ともいう）特殊関数である。（https://ja.wikipedia.org/wiki/ガンマ関数）

演習 1.18

$D$ 次元の単位球の表面積 $S_D$ ，体積 $V_D$ を導くのに

I=\left(2 \pi \sigma^{2}\right)^{1 / 2} \tag{1.126}

を使うことができる．これにはまず，直交座標から極座標への変換から導かれる

\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=S_{D} \int_{0}^{\infty} e^{-r^{2}} r^{D-1} \mathrm{d} r \tag{1.142}

という事実を考える．ガンマ関数の定義 $(1.141)$ と $(1.126)$ から，この式の両辺を評価し，

S_{D}=\frac{2 \pi^{D / 2}}{\Gamma(D / 2)} \tag{1.143}

を示せ．次に半径 $0$ から $1$ まで積分し， $D$ 次元単位球の体積が

V_D = \frac{S_D}{D} \tag{1.144}

で与えられることを示せ．最後に $\Gamma(1)=1$ および $\Gamma(3/2)=\sqrt{\pi} / 2$ から， $(1.143)$ と $(1.144)$ が $D=2$ および $D=3$ の通常の表現に帰着されることを示せ．

Wikipediaの超平面や http://www.oit.ac.jp/ge/~nakano/Ex-0002.pdf なども参照。

$(1.126)$ 式の $\displaystyle \int_{-\infty}^{\infty}\exp\left( -\frac{1}{2\sigma^2}x^2\right)dx = \sqrt{2\pi\sigma^2}$ をうまく使う．

$(1.142)$ 式の左辺の形にするために $\sigma^2 = 1/2$ を代入すると，

\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i} = \left( \sqrt{2\pi\cdot (1/2)} \right)^D = \pi^{D/2}

となる。一方で $(1.142)$ 式の右辺はガンマ関数の形なので $(1.141)$ 式について $u=r^2$ を代入すると、 $du=2rdr$ なので

\begin{aligned} \Gamma(D/2) &= \int_{0}^{\infty}r^{D-2}e^{-r^2}\cdot 2rdr \\ &= 2\int_{0}^{\infty}r^{D-1}e^{-r^2}dr \end{aligned}

よって、 $\displaystyle \int_{0}^{\infty}r^{D-1}e^{-r^2}dr = \frac{\Gamma (D/2)}{2}$ である。

$(1.142)$ 式を成立させるための $S_D$ は

S_D = \frac{2}{\Gamma(D/2)}\cdot \pi^{D/2} = \frac{2\pi^{D/2}}{\Gamma(D/2)}

となり， $(1.143)$ 式が示された．

ここで，次元の考察から $D$ 次元球の表面積と体積は

S_D(r) = S_D(1)r^{D-1},\hspace{1em}V_D(r) = V_D(1)r^D

と書けることに注意する． $r$ が $0 \to 1$ を動いて全表面積を積分すれば $V_D(1)$ になることを利用して，

V_D(1) = \int_{0}^{1}S_D(1)r^{D-1}dr = S_D(1)\left[ \frac{r^D}{D} \right]_{0}^{1} = \frac{S_D}{D}

もしくは、 $V_D(r) = V_D(1)r^D$ の両辺をrで微分すると、

S_D(r) = V_D(1)Dr^{D-1}

$S_D(r) = S_D(1)r^{D-1}$ より、

S_D(1)r^{D-1} = V_D(1)Dr^{D-1}

V_D(1) = S_D(1)/D

これより， $V_D = S_D/D$ を得る． $\Gamma(1)=1$ , $\Gamma(3/2) = \pi / 2$ を用いると、 $S_2 = 2\pi, V_2 = \pi$ , $S_3 = 4\pi，V_3 = \frac{4\pi}{3}$ となり、 $D=2$ , $D=3$ で見慣れた式になることがわかる．

（こちらの演習では、 $S_D = S_D(1)$ , $V_D = V_D(1)$ と定義していることに注意する。）

演習 1.19

$D$ 次元の半径 $a$ の球と，同じ中心を持つ一辺2$a$の超立方体を考える．球面は超立方体の各面の中心で接している．演習問題1.18の結果を使って，球の体積と立方体の体積の比が

\frac{球の体積}{立方体の体積}=\frac{\pi^{D / 2}}{D 2^{D-1} \Gamma(D / 2)} \tag{1.145}

で与えられることを示せ．スターリングの公式

\Gamma(x+1) \simeq(2 \pi)^{1 / 2} e^{-x} x^{x+1 / 2} \tag{1.146}

が $x \gg 1$ で成り立つことを使って $D \to \infty$ の極限で比の値 $(1.145)$ が $0$ に収束することを示せ．また，超立方体の中心から1つの頂点までの距離を中心から側面までの距離で割った比が $\sqrt{D}$ となることを示し， $D \to \infty$ のとき $\infty$ に発散することを示せ．これらの結果から，高次元空間では立方体の体積のほとんどはたくさんの頂点に集中し，非常に長い「スパイク」になっていることがわかる！

演習問題1.18の結果から、 $D$ 次元の半径 $a$ の球の体積は $\displaystyle \frac{2 \pi^{D / 2}}{\Gamma(D / 2)}a^{D}$ である。また、 $D$ 次元の一辺 $2a$ の超立方体の体積は $(2a)^{D}$ である。よって、その比率は

\frac{\pi^{D / 2}}{D 2^{D-1} \Gamma(D / 2)}

となる。これを $f(D)$ とする。

スターリングの公式を用いると、

\begin{aligned} f(D) &= \frac{\pi^{D/2}}{2^{D}\Gamma{\left(\frac{D}{2}+1 \right)}} \\ &\simeq \frac{\pi^{D/2}}{2^{D}\cdot\sqrt{2\pi} \cdot e^{-D/2}\cdot \left( \frac{D}{2} \right)^{\frac{D+1}{2}}} \\ &= \frac{1}{\sqrt{\pi D}}\cdot \left( \frac{\pi e}{2D} \right)^{\frac{D}{2}} \end{aligned}

となるので、 $D \to \infty$ で $f(D) \to 0$ となる。

超立方体の中心から側面までの距離は $a$ で、中心から1つの頂点までの距離は $\sqrt{D}a$ である（ $D=2$ で $\sqrt{2}a$ , $D=3$ で $\sqrt{3}a$ となることと合致する）。よって比は $\sqrt{D}$ となる。このとき $D \to \infty$ でこの比 $\sqrt{D}$ は $\infty$ に発散することがわかる。

このことは高次元になればなるほど超立方体の体積が角に集中することになり、その角は非常に長いスパイク状であるという帰結を表している。

参考：https://windfall.hatenablog.com/entry/2015/07/02/084623 球面集中現象とも。

演習 1.20

この演習問題では高次元ガウス分布の振る舞いを扱う． $D$ 次元ガウス分布

p(\mathbf{x})=\frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{\|\mathbf{x}\|^{2}}{2 \sigma^{2}}\right) \tag{1.147}

を考えよう．極座標系で，角度方向については積分し，半径に関する密度を求めたい．このために，半径 $r$ にある厚さ $\epsilon$ の薄皮に関して $\mathbf{x}$ の確率密度の積分をとると， $\epsilon \ll 1$ のとき $p(r)\epsilon$ となることを示せ（注：確率密度関数の添え字が（簡略化のため）省略されていて少々紛らわしいが， $p(r)$ は半径 $r$ を確率変数と見たときの確率密度， $p(\mathbf{x})$ は $\mathbf{x}$ を確率変数と見たときの確率密度を表すことに注意されたい）．ただし，

p(r)=\frac{S_{D} r^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \tag{1.148}

であり， $S_D$ は $D$ 次元単位球の表面積である関数 $p(r)$ が１つの停留点を持ち， $D$ が大きいとき， $\widehat{r} \simeq \sqrt{D} \sigma$ にあることを示せ． $\epsilon \ll \widehat{r}$ について $p(\widehat{r}+\epsilon)$ を考え， $D$ が大きいとき

p(\widehat{r}+\epsilon)=p(\widehat{r}) \exp \left(-\frac{\epsilon^{2}}{\sigma^{2}}\right) \tag{1.149}

となることを示せ．これから $\widehat{r}$ が確率密度の最大値を与える半径となり， $p(r)$ が $\hat{r}$ での最大値から $\sigma$ の長さスケールで指数的に減衰していることがわかる．我々はすでに， $D$ が大きいとき $\sigma \ll \widehat{r}$ であることを見てきたので，ほとんどの確率質量が大きな半径の薄皮に集中していることがわかる．最後に， $\mathbf{x}$ の確率密度 $p(\mathbf{x})$ は，半径 $\hat{r}$ にある地点よりも，原点での方が $\exp (D/2)$ 倍大きいことを示せ．このことから，ほとんどの高次元ガウス分布の確率質量は $\mathbf{x}$ の確率密度の高いところとは異なる半径のところにあることがわかる．後の章でモデルパラメータのベイズ推論を考える際に，高次元空間の分布のこの性質を使って重要な結論を導くことになる．

混乱を避けるため，以下では $p(\mathbf{x})$ を $p_{\mathbf{x}}(\mathbf{x})$ ， $p(r)$ を $p_r(r)$ と表す．

まず，半径 $r$ ，厚さ $\epsilon$ の薄皮の体積を求める．

$S_D$ は $D$ 次元単位超球の表面積なので，半径 $r$ の位置での表面積は $S_D r^{D-1}$ となる． $\epsilon \ll 1$ の条件下では近似的に表面積が一定であると考えて良いので，薄皮の体積は $S_D r^{D-1}\epsilon$ となる．

次に， $p_{\mathbf{x}}(\mathbf{x})$ を薄皮 $(shell)$ に関して積分する．薄皮なので確率密度も一定と見なせるので

\begin{aligned} \int_{shell} p_{\mathbf{x}}(\mathbf{x}) \mathrm{d} \mathbf{x} \simeq & ~ p_{\mathbf{x}}(\mathbf{x}=r) S_D r^{D-1}\epsilon \\ =& \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) S_D r^{D-1}\epsilon \\ =& p_r(r)\epsilon \\ \end{aligned}

となる．

また， $(1.148)$ を $r$ で微分すると

\begin{aligned} \frac{\mathrm{d}}{\mathrm{d} r} p_r(r) =& \frac{\mathrm{d}}{\mathrm{d} r} \left\{ \frac{S_{D} r^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \right\}\\ =& \frac{S_{D}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \left\{ (D-1)r^{D-2} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) + r^{D-1} \left(-\frac{r}{\sigma^{2}}\right) \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \right\} \\ =& \frac{S_{D}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{r^{2}}{2 \sigma^{2}}\right) \left\{ (D-1)r^{D-2} - \frac{r^D}{\sigma^{2}} \right\} \\ \end{aligned}

となり，これが $0$ となるときの $r$ を $\hat{r}$ とすると

\begin{aligned} & (D-1)\hat{r}^{D-2} - \frac{\hat{r}^D}{\sigma^{2}} = 0 \\ \Leftrightarrow ~ & \hat{r} = \sigma \sqrt{D-1} \end{aligned}

ここで $D \gg 1$ とすると

\hat{r} \simeq \sigma \sqrt{D}

となる．

次に， $p_r(\hat{r}+\epsilon)$ を考える．

\begin{aligned} p_r(\hat{r}+\epsilon) =& \frac{S_{D} (\hat{r}+\epsilon)^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{(\hat{r}+\epsilon)^{2}}{2 \sigma^{2}}\right) \\ =& \frac{S_{D} \hat{r}^{D-1}}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{\hat{r}^{2}}{2 \sigma^{2}}\right) \left( 1 + \frac{\epsilon}{\hat{r}} \right)^{D-1} \exp \left(-\frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right) \\ =& p_r(\hat{r}) \left( 1 + \frac{\epsilon}{\hat{r}} \right)^{D-1} \exp \left(-\frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right) \\ =& p_r(\hat{r}) \exp \left\{ \ln \left( 1 + \frac{\epsilon}{\hat{r}} \right)^{D-1} - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} \\ =& p_r(\hat{r}) \exp \left\{ (D-1) \ln \left( 1 + \frac{\epsilon}{\hat{r}} \right) - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} \\ \end{aligned}

ここで $\ln (1+x)$ のマクローリン展開より

\begin{aligned} \ln (1+x) =& x - \frac{1}{2}x^2 + \frac{1}{3}x^3 - \cdots \\ \simeq& ~ x - \frac{1}{2}x^2 \end{aligned}

の近似を利用すると

\begin{aligned} p_r(\hat{r}+\epsilon) \simeq& ~ p_r(\hat{r}) \exp \left\{ (D-1) \left( \frac{\epsilon}{\hat{r}} - \frac{\epsilon^2}{2 \hat{r}^2} \right) - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} \\ =& p_r(\hat{r}) \exp \left\{ \frac{\hat{r}^2}{\sigma^2} \left( \frac{\epsilon}{\hat{r}} - \frac{\epsilon^2}{2 \hat{r}^2} \right) - \frac{1}{2 \sigma^{2}} (2\hat{r}\epsilon + \epsilon^2 )\right\} ~(\because \hat{r} = \sigma \sqrt{D-1}) \\ =& p_r(\hat{r}) \exp \left(-\frac{\epsilon^{2}}{\sigma^{2}}\right) \\ \end{aligned}

となり， $(1.149)$ が得られる．

また

\begin{aligned} p_{\mathbf{x}}(\mathbf{x} = \mathbf{0}) =& \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \\ p_{\mathbf{x}}(\|\mathbf{x}\| = \hat{r}) =& \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{\hat{r}^{2}}{2 \sigma^{2}}\right) \\ \simeq & \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} \exp \left(-\frac{D}{2}\right) ~ (D \gg 1) \\ \end{aligned}

であることより，確率密度 $p_{\mathbf{x}}(\mathbf{x})$ は半径 $\hat{r}$ にある地点での値 $p_{\mathbf{x}}(\|\mathbf{x}\| = \hat{r})$ に比べ，原点での方が $\exp (D/2)$ 倍大きいことが示された。

Discussion

ログインするとコメントできます