はじめに
PRML解答例まとめ を参照
演習 2.1
ベルヌーイ分布
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x (2.2)
\textrm{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} \tag{2.2}
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x ( 2.2 )
が次の性質を満たすことを確かめよ.
∑ x = 0 1 p ( x ∣ μ ) = 1 (2.257)
\sum_{x=0}^{1} p(x | \mu) =1 \tag{2.257}
x = 0 ∑ 1 p ( x ∣ μ ) = 1 ( 2.257 )
E [ x ] = μ (2.258)
\mathbb{E}[x] = \mu \tag{2.258}
E [ x ] = μ ( 2.258 )
var [ x ] = μ ( 1 − μ ) (2.259)
\operatorname{var}[x] = \mu(1-\mu) \tag{2.259}
var [ x ] = μ ( 1 − μ ) ( 2.259 )
ベルヌーイ分布に従う二値確率変数x x x のエントロピーH [ x ] \mathrm{H}[x] H [ x ] が
H [ x ] = − μ ln μ − ( 1 − μ ) ln ( 1 − μ ) (2.260)
\mathrm{H}[x]=-\mu \ln \mu-(1-\mu) \ln (1-\mu) \tag{2.260}
H [ x ] = − μ ln μ − ( 1 − μ ) ln ( 1 − μ ) ( 2.260 )
で与えられることを示せ.
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x \textrm{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x であるから、
∑ x = 0 1 p ( x ∣ μ ) = μ 0 ( 1 − μ ) 1 + μ 1 ( 1 − μ ) 0 = 1
\sum_{x=0}^{1} p(x | \mu)=\mu^{0}(1-\mu)^{1}+\mu^{1}(1-\mu)^{0}=1
x = 0 ∑ 1 p ( x ∣ μ ) = μ 0 ( 1 − μ ) 1 + μ 1 ( 1 − μ ) 0 = 1
E [ x ] = ∑ x = 0 1 x μ x ( 1 − μ ) 1 − x = μ
\mathbb{E}[x]=\sum_{x=0}^{1}x\mu^x(1-\mu)^{1-x} =\mu
E [ x ] = x = 0 ∑ 1 x μ x ( 1 − μ ) 1 − x = μ
var [ x ] = E [ x 2 ] − ( E [ x ] ) 2 = μ − μ 2 = μ ( 1 − μ )
\operatorname{var}[x] = \mathbb{E}[x^2]-(\mathbb{E}[x])^2=\mu-\mu^2=\mu(1-\mu)
var [ x ] = E [ x 2 ] − ( E [ x ] ) 2 = μ − μ 2 = μ ( 1 − μ )
また、エントロピーH [ x ] \textrm{H}[x] H [ x ] については
H [ x ] = − ∑ x = 0 1 Bern ( x ∣ μ ) ⋅ ln Bern ( x ∣ μ ) = − ∑ x = 0 1 ( μ x ( 1 − μ ) 1 − x ln μ x ( 1 − μ ) 1 − x ) = − ( ( 1 − μ ) ⋅ ln ( 1 − μ ) + μ ln μ ) = − μ ln μ − ( 1 − μ ) ln ( 1 − μ )
\begin{aligned} H[x] &=-\sum_{x=0}^{1} \operatorname{Bern}(x | \mu) \cdot \ln \operatorname{Bern}(x | \mu) \\
&=-\sum_{x=0}^{1}\left(\mu^{x}(1-\mu)^{1-x} \ln \mu^{x}(1-\mu)^{1-x}\right) \\
&=-((1-\mu) \cdot \ln (1-\mu)+\mu \ln \mu) \\ &=-\mu \ln \mu-(1-\mu) \ln (1-\mu) \end{aligned}
H [ x ] = − x = 0 ∑ 1 Bern ( x ∣ μ ) ⋅ ln Bern ( x ∣ μ ) = − x = 0 ∑ 1 ( μ x ( 1 − μ ) 1 − x ln μ x ( 1 − μ ) 1 − x ) = − (( 1 − μ ) ⋅ ln ( 1 − μ ) + μ ln μ ) = − μ ln μ − ( 1 − μ ) ln ( 1 − μ )
演習 2.2
ベルヌーイ分布の
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x (2.2)
\textrm{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} \tag{2.2}
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x ( 2.2 )
の表現では, x x x の2つの値0 0 0 と1 1 1 に関して対称ではない. 場合によっては,対称なx ∈ { − 1 , 1 } x \in\{-1,1\} x ∈ { − 1 , 1 } を用いた等価な表現の方が便利である. このとき分布は
p ( x ∣ μ ) = ( 1 − μ 2 ) ( 1 − x ) / 2 ( 1 + μ 2 ) ( 1 + x ) / 2 (2.261)
p(x | \mu)=\left(\frac{1-\mu}{2}\right)^{(1-x) / 2}\left(\frac{1+\mu}{2}\right)^{(1+x) / 2} \tag{2.261}
p ( x ∣ μ ) = ( 2 1 − μ ) ( 1 − x ) /2 ( 2 1 + μ ) ( 1 + x ) /2 ( 2.261 )
と書くことができる. ただし, μ ∈ [ − 1 , 1 ] \mu \in[-1,1] μ ∈ [ − 1 , 1 ] である. この分布( 2.261 ) (2.261) ( 2.261 ) が正規化されていることを示し, その平均, 分散, およびエントロピーを計算せよ.
x ∈ { − 1 , 1 } x \in\{-1,1\} x ∈ { − 1 , 1 } の二値のときに正規化されていることをまず示す。
∑ x = − 1 1 p ( x ∣ μ ) d x = p ( x = − 1 ∣ μ ) + p ( x = 1 ∣ μ ) = ( 1 − μ 2 ) + ( 1 + μ 2 ) = 1
\begin{aligned} \sum_{x=-1}^{1} p(x | \mu) d x &=p(x=-1 | \mu)+p(x=1 | \mu) \\ &=\left(\frac{1-\mu}{2}\right)+\left(\frac{1+\mu}{2}\right)=1 \end{aligned}
x = − 1 ∑ 1 p ( x ∣ μ ) d x = p ( x = − 1∣ μ ) + p ( x = 1∣ μ ) = ( 2 1 − μ ) + ( 2 1 + μ ) = 1
続いて、[ x ] , var [ x ] , H [ x ] \mathbb[x], \operatorname{var}[x], \textrm{H}[x] [ x ] , var [ x ] , H [ x ] について、
E [ x ] = ∑ x p ( x ∣ μ ) = ( − 1 ) 1 − μ 2 + 1 + μ 2 = μ var [ x ] = E [ x 2 ] − { E [ x ] } 2 = ( 1 − μ 2 ) + ( 1 + μ 2 ) − μ 2 = 1 − μ 2 H [ x ] = − ∑ p ( x ∣ μ ) ln p ( x ∣ μ ) = − ( 1 − μ 2 ln 1 − μ 2 + 1 + μ 2 ln 1 + μ 2 )
\begin{aligned}
\mathbb{E}[x] &=\sum x p(x | \mu)=(-1) \frac{1-\mu}{2}+\frac{1+\mu}{2}=\mu \\
\operatorname{var}[x] &=\mathbb{E}\left[x^{2}\right]-\{\mathbb{E}[x]\}^{2}=\left(\frac{1-\mu}{2}\right)+\left(\frac{1+\mu}{2}\right)-\mu^{2}=1-\mu^{2} \\
\textrm{H}[x] &=-\sum p(x | \mu) \ln p(x | \mu) \\
&=-\left(\frac{1-\mu}{2} \ln \frac{1-\mu}{2}+\frac{1+\mu}{2} \ln \frac{1+\mu}{2}\right) \end{aligned}
E [ x ] var [ x ] H [ x ] = ∑ x p ( x ∣ μ ) = ( − 1 ) 2 1 − μ + 2 1 + μ = μ = E [ x 2 ] − { E [ x ] } 2 = ( 2 1 − μ ) + ( 2 1 + μ ) − μ 2 = 1 − μ 2 = − ∑ p ( x ∣ μ ) ln p ( x ∣ μ ) = − ( 2 1 − μ ln 2 1 − μ + 2 1 + μ ln 2 1 + μ )
演習 2.3
この演習問題では, 二項分布
Bin ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m (2.9)
\operatorname{Bin}(m \mid N, \mu)=\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m} \tag{2.9}
Bin ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m ( 2.9 )
が正規化されていることを証明する. まず, 全部でN N N 個ある対象からm m m 個の同じものを選ぶ組み合わせの数の定義(2.10)を用いて,
( N m ) + ( N m − 1 ) = ( N + 1 m ) (2.262)
\left(\begin{array}{l}N \\ m\end{array}\right)+\left(\begin{array}{c}N \\ m-1\end{array}\right)=\left(\begin{array}{c}N+1 \\ m\end{array}\right) \tag{2.262}
( N m ) + ( N m − 1 ) = ( N + 1 m ) ( 2.262 )
を示せ. この結果を用い, 帰納法で次の結果を証明せよ.
( 1 + x ) N = ∑ m = 0 N ( N m ) x m (2.263)
(1+x)^{N}=\sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) x^{m} \tag{2.263}
( 1 + x ) N = m = 0 ∑ N ( N m ) x m ( 2.263 )
これは, 二項定理 (binomialtheorem) として知られ,すべての実数値x x x について成り立つ.最後に二項分布が次のように正規化されていることを,( 1 − μ ) N (1-\mu)^N ( 1 − μ ) N を和の外に出してから,二項定理を使うことで示せ.
∑ m = 0 N ( N m ) μ m ( 1 − μ ) N − m = 1 (2.264)
\sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m}=1 \tag{2.264}
m = 0 ∑ N ( N m ) μ m ( 1 − μ ) N − m = 1 ( 2.264 )
( 2.262 ) (2.262) ( 2.262 ) を示す。
( N m ) + ( N m − 1 ) = N ! m ! ( N − m ) ! + N ! ( m − 1 ) ! ( N − m + 1 ) ! = N ! ( m − 1 ) ! ( N − m ) ! ( 1 m + 1 N − m + 1 ) = N ! ( m − 1 ) ! ( N − m ) ! ( N + 1 m ( N − m + 1 ) ) = ( N + 1 ) ! m ! ( N + 1 − m ) ! = ( N + 1 m )
\begin{aligned}\left(\begin{array}{c}N \\ m\end{array}\right)+\left(\begin{array}{c}N \\
m-1\end{array}\right) &=\frac{N !}{m !(N-m) !}+\frac{N !}{(m-1) !(N-m+1)!} \\
&=\frac{N !}{(m-1) !(N-m) !}\left(\frac{1}{m}+\frac{1}{N-m+1}\right) \\
&=\frac{N !}{(m-1) !(N-m) !}\left(\frac{N+1}{m(N-m+1)}\right) \\
&=\frac{(N+1) !}{m !(N+1-m) !}=\left(\begin{array}{c}N+1 \\
m\end{array}\right) \end{aligned}
( N m ) + ( N m − 1 ) = m ! ( N − m )! N ! + ( m − 1 )! ( N − m + 1 )! N ! = ( m − 1 )! ( N − m )! N ! ( m 1 + N − m + 1 1 ) = ( m − 1 )! ( N − m )! N ! ( m ( N − m + 1 ) N + 1 ) = m ! ( N + 1 − m )! ( N + 1 )! = ( N + 1 m )
二項定理( 2.263 ) (2.263) ( 2.263 ) を帰納法で示す。
N = 1 N=1 N = 1 のとき、
( 左辺 ) = ( 1 + x ) = ( 1 0 ) x 0 + ( 1 1 ) x 1 = ∑ n = 0 1 ( 1 m ) x m
(左辺)=(1+x)=\left(\begin{array}{c}1 \\ 0\end{array}\right) x^{0}+\left(\begin{array}{c}1 \\ 1\end{array}\right) x^{1}=\sum_{n=0}^{1}\left(\begin{array}{c}1 \\ m\end{array}\right) x^{m}
( 左辺 ) = ( 1 + x ) = ( 1 0 ) x 0 + ( 1 1 ) x 1 = n = 0 ∑ 1 ( 1 m ) x m
であり成立する。次に、N = k N=k N = k において式( 2.263 ) (2.263) ( 2.263 ) が成立すると仮定したとき、N = k + 1 N=k+1 N = k + 1 のときは
( 1 + x ) k + 1 = ( 1 + x ) ∑ m = 0 k ( k m ) x m = ∑ m = 0 k ( k m ) x m + x ∑ m = 0 k ( k m ) x m = 1 + ∑ m = 1 k { ( k m ) + ( k m − 1 ) } x m + x k + 1 = 1 + ∑ m = 1 k ( k + 1 m ) x m + x k + 1 = ∑ m = 0 k + 1 ( k + 1 m ) x m
\begin{aligned}(1+x)^{k+1} &=(1+x) \sum_{m=0}^{k}\left(\begin{array}{c}k \\ m\end{array}\right) x^{m}=\sum_{m=0}^{k}\left(\begin{array}{c}k \\ m\end{array}\right) x^{m}+x \sum_{m=0}^{k}\left(\begin{array}{c}k \\ m\end{array}\right) x^{m} \\ &=1+\sum_{m=1}^{k}\left\{\left(\begin{array}{c}k \\ m\end{array}\right)+\left(\begin{array}{c}k \\ m-1\end{array}\right)\right\} x^{m}+x^{k+1} \\ &=1+\sum_{m=1}^{k}\left(\begin{array}{c}k+1 \\ m\end{array}\right) x^{m}+x^{k+1} \\ &=\sum_{m=0}^{k+1}\left(\begin{array}{c}k+1 \\ m\end{array}\right) x^{m} \end{aligned}
( 1 + x ) k + 1 = ( 1 + x ) m = 0 ∑ k ( k m ) x m = m = 0 ∑ k ( k m ) x m + x m = 0 ∑ k ( k m ) x m = 1 + m = 1 ∑ k { ( k m ) + ( k m − 1 ) } x m + x k + 1 = 1 + m = 1 ∑ k ( k + 1 m ) x m + x k + 1 = m = 0 ∑ k + 1 ( k + 1 m ) x m
よって、N = k + 1 N=k+1 N = k + 1 のときでも成立するので、帰納法より式( 2.263 ) (2.263) ( 2.263 ) は示された。
最後に正規化の式( 2.264 ) (2.264) ( 2.264 ) について、二項定理から
{ ( 1 − μ ) + μ } N = ∑ m = 0 N ( N m ) μ m ( 1 − μ ) N − m
\left\{(1-\mu)+\mu\right\}^N=\sum_{m=0}^{N}\left(\begin{array}{c}N \\ m \end{array} \right) \mu^m (1-\mu)^{N-m}
{ ( 1 − μ ) + μ } N = m = 0 ∑ N ( N m ) μ m ( 1 − μ ) N − m
が成立する。ここで、( 左辺 ) = 1 N = 1 (左辺)=1^N=1 ( 左辺 ) = 1 N = 1 なので、式(2.264)は成立する。
演習 2.4
二項分布の平均が
E [ m ] ≡ ∑ m = 0 N m Bin ( m ∣ N , μ ) = N μ (2.11)
\mathbb{E}[m] \equiv \sum_{m=0}^{N} m \operatorname{Bin}(m \mid N, \mu)=N \mu \tag{2.11}
E [ m ] ≡ m = 0 ∑ N m Bin ( m ∣ N , μ ) = N μ ( 2.11 )
であることを示せ.これには,正規化条件( 2.264 ) (2.264) ( 2.264 ) の両辺をμ \mu μ で微分し,変形してn n n の平均を求めよ.同様に,( 2.264 ) (2.264) ( 2.264 ) の両辺をμ \mu μ について2階微分し,二項分布の平均( 2.11 ) (2.11) ( 2.11 ) も用いて,二項分布の分散の結果
var [ m ] ≡ ∑ m = 0 N ( m − E [ m ] ) 2 Bin ( m ∣ N , μ ) = N μ ( 1 − μ ) (2.12)
\operatorname{var}[m] \equiv \sum_{m=0}^{N}(m-\mathbb{E}[m])^{2} \operatorname{Bin}(m \mid N, \mu)=N \mu(1-\mu) \tag{2.12}
var [ m ] ≡ m = 0 ∑ N ( m − E [ m ] ) 2 Bin ( m ∣ N , μ ) = N μ ( 1 − μ ) ( 2.12 )
を証明せよ.
( 2.264 ) (2.264) ( 2.264 ) の両辺をμ \mu μ で微分すると
∑ m = 0 N ( N m ) ( m μ m − 1 ( 1 − μ ) N − m − ( N − m ) μ m ( 1 − μ ) N − m − 1 ) = 0 ∑ m = 0 N ( N m ) μ m − 1 ( 1 − μ ) N − m − 1 ( m ( 1 − μ ) − ( N − m ) μ ) = 0 ∑ m = 0 N ( N m ) μ m − 1 ( 1 − μ ) N − m − 1 ( m − N μ ) = 0 ∑ m = 0 N ( N m ) m μ m − 1 ( 1 − μ ) N − m − 1 = N μ ∑ m = 0 N ( N m ) μ m − 1 ( 1 − μ ) N − m − 1
\begin{array}{l}
\displaystyle \sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right)\left(m \mu^{m-1}(1-\mu)^{N-m}-(N-m) \mu^{m}(1-\mu)^{N-m-1}\right)=0 \\
\displaystyle \sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m-1}(1-\mu)^{N-m-1}(m(1-\mu)-(N-m)\mu)=0 \\
\displaystyle \sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m-1}(1-\mu)^{N-m-1}(m-N \mu)=0 \\
\displaystyle \sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) m \mu^{m-1}(1-\mu)^{N-m-1}=N\mu \displaystyle \sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m-1}(1-\mu)^{N-m-1}
\end{array}
m = 0 ∑ N ( N m ) ( m μ m − 1 ( 1 − μ ) N − m − ( N − m ) μ m ( 1 − μ ) N − m − 1 ) = 0 m = 0 ∑ N ( N m ) μ m − 1 ( 1 − μ ) N − m − 1 ( m ( 1 − μ ) − ( N − m ) μ ) = 0 m = 0 ∑ N ( N m ) μ m − 1 ( 1 − μ ) N − m − 1 ( m − N μ ) = 0 m = 0 ∑ N ( N m ) m μ m − 1 ( 1 − μ ) N − m − 1 = N μ m = 0 ∑ N ( N m ) μ m − 1 ( 1 − μ ) N − m − 1
両辺にμ ( 1 − μ ) \mu(1-\mu) μ ( 1 − μ ) をかけると
∑ m = 0 N ( N m ) m μ m ( 1 − μ ) N − m ⏟ E [ m ] = N μ ∑ m = 0 N ( N m ) μ m ( 1 − μ ) N − m ⏟ 1
\underbrace{\sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) m \mu^{m}(1-\mu)^{N-m}}_{\mathbb E[m]} = N\mu \underbrace{\sum_{m=0}^{N}\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m}}_{1}
E [ m ] m = 0 ∑ N ( N m ) m μ m ( 1 − μ ) N − m = N μ 1 m = 0 ∑ N ( N m ) μ m ( 1 − μ ) N − m
よってE [ m ] = N μ \mathbb E[m]=N\mu E [ m ] = N μ が示された。
分散について,
var [ m ] = E [ m 2 ] − ( E [ m ] ) 2 = E [ m ( m − 1 ) ] + E [ m ] − ( E [ m ] ) 2
\begin{aligned} \operatorname{var}[m] &=\mathbb{E}\left[m^{2}\right]-(\mathbb{E}[m])^{2} \\ &=\mathbb{E}[m(m-1)]+\mathbb{E}[m]-(\mathbb{E}[m])^{2} \end{aligned}
var [ m ] = E [ m 2 ] − ( E [ m ] ) 2 = E [ m ( m − 1 )] + E [ m ] − ( E [ m ] ) 2
であるから、E [ m ( m − 1 ) ] \mathbb{E}[m(m-1)] E [ m ( m − 1 )] の値を求める。
E [ m ( m − 1 ) ] = ∑ m = 0 N m ( m − 1 ) ( N m ) μ m ( 1 − μ ) N − m = ∑ m = 2 N m ( m − 1 ) ( N m ) μ m ( 1 − μ ) N − m = ∑ m = 2 N m ( m − 1 ) N ( N − 1 ) ( N − 2 ) ! ( N − m ) ! m ( m − 1 ) ( m − 2 ) ! μ m ( 1 − μ ) N − m = N ( N − 1 ) ∑ m = 2 N ( N − 2 m − 2 ) μ m ( 1 − μ ) N − m = N ( N − 1 ) μ 2 ∑ ℓ = 0 N − 2 ( N − 2 ℓ ) μ ℓ ( 1 − μ ) N − 2 − ℓ ⏟ 1 = N ( N − 1 ) μ 2
\begin{aligned} E[m(m-1)] &=\sum_{m=0}^{N} m(m-1)\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m} \\
&=\sum_{m=2}^{N} m(m-1)\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m} \\ &=\sum_{m=2}^{N} m(m-1) \frac{N(N-1)(N-2) !}{(N-m) ! m(m-1)(m-2) !} \mu^{m}(1-\mu)^{N-m} \\
&=N(N-1) \sum_{m=2}^{N}\left(\begin{array}{l}N-2 \\ m-2\end{array}\right) \mu^{m}(1-\mu)^{N-m} \\
&=N(N-1) \mu^{2} \underbrace{\sum_{\ell=0}^{N-2}\left(\begin{array}{c}N-2 \\ \ell \end{array}\right) \mu^{\ell}(1-\mu)^{N-2-\ell}}_1 \\
&=N(N-1) \mu^{2} \end{aligned}
E [ m ( m − 1 )] = m = 0 ∑ N m ( m − 1 ) ( N m ) μ m ( 1 − μ ) N − m = m = 2 ∑ N m ( m − 1 ) ( N m ) μ m ( 1 − μ ) N − m = m = 2 ∑ N m ( m − 1 ) ( N − m )! m ( m − 1 ) ( m − 2 )! N ( N − 1 ) ( N − 2 )! μ m ( 1 − μ ) N − m = N ( N − 1 ) m = 2 ∑ N ( N − 2 m − 2 ) μ m ( 1 − μ ) N − m = N ( N − 1 ) μ 2 1 ℓ = 0 ∑ N − 2 ( N − 2 ℓ ) μ ℓ ( 1 − μ ) N − 2 − ℓ = N ( N − 1 ) μ 2
よって
var [ m ] = N ( N − 1 ) μ 2 + N μ − ( N μ ) 2 = N μ ( 1 − μ )
\begin{aligned} \operatorname{var}[m] &=N(N-1) \mu^{2}+N \mu-(N \mu)^{2} \\ &=N \mu(1-\mu) \end{aligned}
var [ m ] = N ( N − 1 ) μ 2 + N μ − ( N μ ) 2 = N μ ( 1 − μ )
これは( 2.12 ) (2.12) ( 2.12 ) と一致する。
演習 2.5
この演習問題では,
Beta ( μ ∣ a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a − 1 ( 1 − μ ) b − 1 (2.13)
\operatorname{Beta}(\mu \mid a, b)=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1} \tag{2.13}
Beta ( μ ∣ a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) μ a − 1 ( 1 − μ ) b − 1 ( 2.13 )
のベータ分布が,
∫ 0 1 Beta ( μ ∣ a , b ) d μ = 1 (2.14)
\int_{0}^{1} \operatorname{Beta}(\mu \mid a, b) \mathrm{d} \mu=1 \tag{2.14}
∫ 0 1 Beta ( μ ∣ a , b ) d μ = 1 ( 2.14 )
が成立するように正しく正規化されていることを証明する. これは
∫ 0 1 μ a − 1 ( 1 − μ ) b − 1 d μ = Γ ( a ) Γ ( b ) Γ ( a + b ) (2.265)
\int_{0}^{1} \mu^{a-1}(1-\mu)^{b-1} \mathrm{d} \mu=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)} \tag{2.265}
∫ 0 1 μ a − 1 ( 1 − μ ) b − 1 d μ = Γ ( a + b ) Γ ( a ) Γ ( b ) ( 2.265 )
を示すことと等価である.ガンマ関数の定義
Γ ( x ) ≡ ∫ 0 ∞ u x − 1 e − u d u (1.141)
\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u \tag{1.141}
Γ ( x ) ≡ ∫ 0 ∞ u x − 1 e − u d u ( 1.141 )
より,
Γ ( a ) Γ ( b ) = ∫ 0 ∞ exp ( − x ) x a − 1 d x ∫ 0 ∞ exp ( − y ) y b − 1 d y (2.266)
\Gamma(a) \Gamma(b)=\int_{0}^{\infty} \exp (-x) x^{a-1} \mathrm{d} x \int_{0}^{\infty} \exp (-y) y^{b-1} \mathrm{d} y \tag{2.266}
Γ ( a ) Γ ( b ) = ∫ 0 ∞ exp ( − x ) x a − 1 d x ∫ 0 ∞ exp ( − y ) y b − 1 d y ( 2.266 )
を得る。この式を用いて,次のようにして(2.265) を証明せよ.まずy についての積分を, x についての積分の被積分関数の中に移す.次にx を固定してt=y+x と置換し,x とt の積分の順序を交換する.最後に,t を固定してx=t\mu と置換する.
式(2.265) を証明する。
\begin{aligned} \Gamma(a) \Gamma(b) &=\int_{0}^{\infty} \exp (-x) x^{a-1} dx \int_{0}^{\infty} \exp (-y) y^{b-1} dy \\
&=\int_{0}^{\infty} \exp (-x) x^{a-1}\left\{ \int_{0}^{\infty} \exp (-y) y^{b-1} dy\right\} dx \\
&=\int_{0}^{\infty} \int_{0}^{\infty} \exp (-x-y) x^{a-1} y^{b-1} dydx \end{aligned}
x を固定してからt=y+x とおくと, 0 \le y \le \infty なので, x\le t \le \infty となる。
\Gamma(a) \Gamma(b)=\int_{0}^{\infty} \int_{x}^{\infty} \exp (-t) x^{a-1}(t-x)^{b-1} dt dx
次に上式のt に関する積分とx に関する積分を入れ替える.
積分範囲について注意すると、x は0\le x\le \infty , t はx\le t \le \infty であり, 順番を入れ替えると0\le t \le \infty の積分範囲で, x は0\le x \le t の範囲となる。よって,
\Gamma(a) \Gamma(b)=\int_{0}^{\infty} \int_{0}^{t} \exp (-t) x^{a-1}(t-x)^{b-1} dx dt
さらにx=t\mu と置換すると, 積分範囲は0\le \mu \le 1, dx=td\mu である.
\Gamma(a) \Gamma(b)=\int_{0}^{\infty} \int_{0}^{1} \mu^{a-1} t^{a-1} \exp (-t) \cdot t^{b-1}(1-\mu)^{b-1} \cdot t d\mu dt
\mu とt の積分に分離すると
\Gamma(a) \Gamma(b)=\int_{0}^{\infty} t^{a+b-1} \exp (-t) dt \cdot \int_{0}^{1} \mu^{a-1}(1-\mu)^{b-1} d\mu
ここで\int_{0}^{\infty} \exp (-t) t^{a+b-1} d t=\Gamma(a+b) なので,
\int_{0}^{1} \mu^{a-1}(1-\mu)^{b-1} \mathrm{d} \mu=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)}
よって, 式(2.265) は示された。
演習 2.6
(2.265) の結果を用いて,ベータ分布
\operatorname{Beta}(\mu \mid a, b)=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1} \tag{2.13}
の平均,分散,およびモードがそれぞれ
\mathbb{E}[\mu] =\frac{a}{a+b} \tag{2.267}
\operatorname{var}[\mu] =\frac{a b}{(a+b)^{2}(a+b+1)} \tag{2.268}
\operatorname{mode}[\mu] =\frac{a-1}{a+b-2} \tag{2.269}
になることを示せ.
式(2.265)\int_{0}^{1} \mu^{a-1}(1-\mu)^{b-1} d \mu=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)} を用いる。
\begin{aligned} \mathbb{E}[\mu] &=\int_{0}^{1} \mu \cdot \operatorname{Beta}(\mu | a, b) d \mu \\ &=\int_{0}^{1} \mu \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1} d \mu \\ &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \int_{0}^{1} \mu^{a}(1-\mu)^{b-1} d \mu=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \cdot \frac{\Gamma(a+1) \Gamma(b)}{\Gamma(a+b+1)} \end{aligned}
ここでガンマ関数の性質\Gamma(x+1)=x\Gamma(x) (演習1.17)を利用すると, 平均\mathbb{E}[\mu] は
\mathbb{E}[\mu]=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \cdot \frac{a \Gamma(a) \Gamma(b)}{(a+b) \Gamma(a+b)}=\frac{a}{a+b}
次に, 分散\operatorname{var}[\mu] の算出のために\mathbb{E}[\mu^2] を計算する
\begin{aligned} \mathbb{E}\left[\mu^{2}\right] &=\int_{0}^{1} \mu^{2} \cdot \operatorname{Beta}(\mu | a, b) d \mu \\ &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \int_{0}^{1} \mu^{a+1}(1-\mu)^{b-1} d \mu \\ &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \cdot \frac{\Gamma(a+2) \Gamma(b)}{\Gamma(a+b+2)} \\
&= \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \cdot \frac{a(a+1)\Gamma(a) \Gamma(b)}{(a+b+1)(a+b)\Gamma(a+b)} = \frac{a(a+1)}{(a+b+1)(a+b)} \end{aligned}
よって, 求める分散は
\begin{aligned} \operatorname{var}[\mu] &=\mathbb{E}\left[\mu^{2}\right]-\{\mathbb{E}[\mu]\}^{2} \\ &=\frac{a(a+1)}{(a+b+1)(a+b)}-\frac{a^{2}}{(a+b)^{2}} \\ &=\frac{\left(a^{2}+a\right)(a+b)-a^{2}(a+b+1)}{(a+b)^{2}(a+b+1)} \\ &=\frac{a b}{(a+b)^{2}(a+b+1)} \end{aligned}
\operatorname{mode}[\mu] は\mu の最頻値, 上に凸で\operatorname{Beta}(\mu|a,b) の傾きが0になる点。
\begin{aligned} \frac{\partial \operatorname{Beta}}{\partial \mu} &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \frac{\partial}{\partial \mu}\left[\mu^{a-1}(1-\mu)^{b-1}\right] \\ &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)}\left\{(a-1) \mu^{a-2}(1-\mu)^{b-1}-(b-1) \mu^{a-1}(1-\mu)^{b-2}\right\} \\ &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-2}(1-\mu)^{b-2}\{(a-1)(1-\mu)-(b-1) \mu\}
\end{aligned}
ここで\mu>0, 1-\mu>0 であるから
を考えれば良い。これを解いて
\space \mu=\frac{a-1}{a+b-2}
(厳密にはa>1, b>1 でないと成立しない)
演習 2.7
\mu の事前分布がベータ分布
\operatorname{Beta}(\mu \mid a, b)=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1} \tag{2.13}
である二項分布
\operatorname{Bin}(m \mid N, \mu)=\left(\begin{array}{l}N \\ m\end{array}\right) \mu^{m}(1-\mu)^{N-m} \tag{2.9}
に従う確率変数x を考える.ここで,x=1 の事象がm 回, x=0 がl 回生じたとする.このとき,\mu の事後平均が,事前平均と\mu の最尤推定量の間の値になることを示せ.これには,事前平均の\lambda 倍と,最尤推定量の(1-\lambda) 倍の和で事後平均が書けることを示せばよい.ただし,0 \leq \lambda \leq 1 である.よって,事後分布が,事前分布と最尤推定解との間のものになることが分かる.
0 \le \lambda \le 1 として、事後平均が事前平均の\lambda 倍と最尤推定量の(1-\lambda) 倍の和であることを示せばよい。
(2.15) より、ベータ分布の平均は\displaystyle \frac{a}{a+b} で、これが事前分布の平均である。x=1 をm 回、x=0 をl 回観測すると、事後分布は(2.18) で与えられ、平均値は(2.19) , (2.20) から\displaystyle \frac{m+a}{m+a+l+b} となる。
一方、最尤推定量は(2.7) , (2.8) の通り、\displaystyle \mu_{\textrm{ML}}=\frac{m}{N}=\frac{m}{m+l} であるので、題意としては
\lambda \frac{a}{a+b}+(1-\lambda) \frac{m}{m+l}=\frac{m+a}{m+a+l+b}
となるような\lambda が0 \le \lambda \le 1 に存在することを示す。
\frac{\lambda a(m+l)-\lambda m(a+b)}{(a+b)(m+l)}=\frac{m+a}{m+a+l+b}-\frac{m}{m+l}
\lambda \frac{a l-b m}{(a+b)(m+l)}=\frac{(m+a)(m+l)-m(m+a+l+b)}{(m+a+l+b)(m+l)}
\begin{aligned} \lambda &=\frac{a+b}{a l-b m} \cdot \frac{m^{2}+m l+a m+a l-m^{2}-m a-m l-m b}{m+a+l+b} \\ &=\frac{a+b}{m+a+l+b} \end{aligned}
m,l \ge 0 , a, b \gt 0 なので、m+a+l+b \ge a+b \gt 0
よって0 \le \lambda \le 1 となる。
演習 2.8
同時確率がp(x,y) であるような2つの変数x とy を考える. これについて,次の2つの結果を証明せよ.
\mathbb{E}[x] =\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]\right] \tag{2.270}
\operatorname{var}[x] =\mathbb{E}_{y}\left[\operatorname{var}_{x}[x | y]\right]+\operatorname{var}_{y}\left[\mathbb{E}_{x}[x | y]\right] \tag{2.271}
ただし,\mathbb{E}_{x}[x | y] は,条件付き分布p(x|y) の下でのx の期待値である. 条件付き分散についても同様である.
※ 添字のx, y と関数としてのx, y を分けて考えておく必要がある。PRML P.19の式(1.36) にあるように、\mathbb{E}_x[f(x,y)] の添字_x は関数f(x,y) のx の分布に関する平均を表している。式(1.37) 〜(1.39) の関数f をf(x)=x として考える。
はじめに
\mathbb{E}_{x}[f| y ]=\int f p(x | y) d x=\int f \frac{p(x, y)}{p(y)} dx
であるから、
\begin{aligned} \mathbb{E}_{y}\left[\mathbb{E}_{x}[f | y]\right] &=\int \left[ \int f \frac{p(x,y)}{p(y)}dx \right] p(y) dy \\
&=\int\left[\int f p(x, y) d x\right] d y \\
&=\int f \int p(x, y) d y d x \\
&=\int f p(x) d x \\
&=\mathbb{E}_{x}[f] = \mathbb{E}_{x}[x]
\end{aligned}
ここで、重積分の交換と式(1.31)の確率の加法定理 である\displaystyle p(x)=\int p(x,y)dy を使った。
次に式(2.271) の右辺について
\begin{aligned}
& \mathbb{E}_{y}\left[\operatorname{var}_{x}[x | y]\right]+\operatorname{var}_{y}\left[\mathbb{E}_{x}[x | y]\right] \\
=& \mathbb{E}_{y}\left[\mathbb{E}_{x}\left[x^{2} | y\right]-\mathbb{E}_{x}[x | y]^{2}\right]+\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]^{2}\right]-\left\{\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]\right]\right\}^{2} \\
=& \mathbb{E}_{y}\left[\mathbb{E}_{x}\left[x^{2} | y\right]\right]-\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]^{2}\right]+\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]^{2}\right]-\left\{\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]\right\}\right\}^{2} \\
=& \mathbb{E}_{y}\left[\mathbb{E}_{x}\left[x^{2} | y\right]\right]-\left\{\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]\right]\right\}^{2} \end{aligned}
ここで式(2.270) の結果を用いる。今度はf(x)=x^2 とすると
\begin{aligned}
\mathbb{E}_{y}\left[\mathbb{E}_{x}\left[x^{2} | y\right]\right]-\left\{\mathbb{E}_{y}\left[\mathbb{E}_{x}[x | y]\right]\right\}^{2} &= \mathbb{E}_{x}\left[x^{2}\right]-\left\{\mathbb{E}_{x}[x]\right\}^{2} \\
&= \operatorname{var}_{x}[x]
\end{aligned}
これは式(2.271) の左辺なので、示された。
演習 2.9
この演習問題では,ディリクレ分布が正規化されていることを,帰納法によって証明する.
ディリクレ分布でM=2 とした特殊な場合であるベータ分布が正規化されていることは,演習問題2.5ですでに示した.
次に,ディリクレ分布がM-1 変数の場合に正規化されているとの仮定の下,M 変数でも正規化されていることを証明する.
これにはまずM 変数のディリクレ分布から, \sum_{k=1}^{M} \mu_{k}=1 の制約を使って\mu_M を除去して,ディリクレ分布を
p_{M}\left(\mu_{1}, \ldots, \mu_{M-1}\right)=C_{M} \prod_{k=1}^{M-1} \mu_{k}^{\alpha_{k}-1}\left(1-\sum_{j=1}^{M-1} \mu_{j}\right)^{\alpha_{M}-1} \tag{2.272}
と書く.すると,あとはC_M を表す式を求めればよい.これには,この式を,範囲に注意しつつ\mu_{M-1} について積分し,さらに,この積分の範囲が0から1となるように変数を置換する.
C_{M-1} での結果が正しいと仮定して(2.265)を用いて,C_M の式を導出せよ.
※ 誘導にしたがって解くものの、指示の意味がピンと来ないかもしれない。まずは制約\displaystyle{\sum_{k=1}^{M} \mu_{k}=1} を使ってまずは制約\displaystyle{\sum_{k=1}^{M} \mu_{k}=1} を使って\mu_M を除去し、\mu_{M-1} 以下からなる式に変形していく。次に、\mu_{M-1} について積分を行うことで、M-2 変数の周辺分布の形p_{M-1}(\mu_1, \mu_2, \ldots, \mu_{M-2}) を計算することができる。これと、M-1 変数のディリクレ分布の結果が正しいと仮定したときに得られる結果と比較することで、C_M についての式が得られる。
M−1 変数の場合に正規化されているとの仮定の下で、M 変数の場合に正規化されていることを証明する。M 変数のディリクレ分布から、\sum_{k=1}^M μ_k = 1 の制約を用いて\mu_M を除去すると、以下のM−1 変数の確率分布が得られる.
p_M(\mu_1,...,\mu_{M-1}) = C_M \prod_{k=1}^{M-1} \mu_k^{\alpha_k-1} \left( 1 - \sum_{j=1}^{M-1} \mu_j \right )^{\alpha_M-1}
ここで、\displaystyle C_{M}=\frac{\Gamma\left(\alpha_{1}+\cdots+\alpha_{M}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{M}\right)} , 制約として\displaystyle 0 \leq \mu_{i} \leq 1(i=1, \ldots, M-1) , \sum_{k=1}^{M-1} \mu_{k} \leq 1 が存在する。
確率分布p_M を変数\mu_{M-1} で積分すると、M-2 変数の周辺分布が得られる(確率の加法定理)。\mu_{M-1} の積分範囲は、上記の制約により、0 から1-\sum_{j=1}^{M-2}\mu_j までとなる。
\begin{aligned}
& p_{M-1}\left(\mu_{1}, \ldots, \mu_{M-2}\right) \\=& \int_{0}^{1-\sum_{j=1}^{M-2} \mu_{j}} p_{M}\left(\mu_{1}, \ldots, \mu_{M-1}\right) d \mu_{M-1} \\=& C_{M}\left[\prod_{k=1}^{M-2} \mu_{k}^{\alpha_{k}-1}\right] \int_{0}^{1-\sum_{j=1}^{M-2} \mu_{j}} \mu_{M-1}^{\alpha_{M-1}-1}\left(1-\sum_{j=1}^{M-1} \mu_{j}\right)^{\alpha_{M}-1} d \mu_{M-1}
\end{aligned}
ここで積分範囲を[0,1] にするために次の変数変換を行う
\begin{aligned}
\mu_{M-1} &= t\left(1-\sum_{j=1}^{M-2} \mu_{j}\right) \\ 1-\sum_{j=1}^{M-1} \mu_{j} &=1-\sum_{j=1}^{M-2} \mu_{j}-\mu_{M-1} \\ &=\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)-t\left(1-\sum_{j=1}^{M-2} \mu_{j}\right) \\ &=(1-t)\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)
\end{aligned}
これによって
\begin{aligned}
\quad p_{M-1}\left(\mu_{1}, \ldots, \mu_{M-2}\right) &= C_{M}\left[\prod_{k=1}^{M-2} \mu_{k}^{\alpha_{z}-1}\right] \int_{0}^{1}\left\{t\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)\right\}^{\alpha_{w-1}-1}\left\{(1-t)\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)\right\}^{\alpha_{n-1}}\left(1-\sum_{j=1}^{M-2} \mu_{j}\right) d t \\
&= C_{M}\left[\prod_{k=1}^{M-2} \mu_{k}^{\alpha_{k}-1}\right]\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)^{\alpha_{y-1}+\alpha_{n}-1} \int_{0}^{1} t^{\alpha_{n-1}-1}(1-t)^{\alpha_{n-1}-1} d t \\
&= C_{M}\left[\prod_{k=1}^{n-2} \mu_{k}^{\alpha_{k}-1}\right]\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)^{\alpha_{n-1}+\alpha_{n}-1} \frac{\Gamma\left(\alpha_{M-1}\right) \Gamma\left(\alpha_{M}\right)}{\Gamma\left(\alpha_{M-1}+\alpha_{M}\right)}
\end{aligned}
こうして得られた周辺分布p_{M-1}(μ_1,\ldots,μ_{M-2}) は、\alpha'=(\alpha_1,\ldots,\alpha_{M-2},\alpha_{M-1}+\alpha_M)^T をパラメータとするM−1 変数のディリクレ分布から変数を一つ除去した確率分布の形をしている。
一方、同じパラメータ\alpha'=(\alpha_1,\ldots,\alpha_{M-2},\alpha_{M-1}+\alpha_M)^T を持つM−1 変数のディリクレ分布から、\sum_{k=1}^{M-1} μ_k = 1 の制約を用いて変数を一つ除去すると、以下の確率分布が得られる。
p_{M-1}\left(\mu_{1}, \ldots, \mu_{M-2}\right)=C_{M-1} \prod_{k=1}^{M-2} \mu_{k}^{\alpha_{k}-1}\left(1-\sum_{j=1}^{M-2} \mu_{j}\right)^{\alpha_{M-1}+\alpha_{M}-1}
ここで\displaystyle{C_{M-1}=\frac{\Gamma\left(\alpha_{1}+\cdots+\alpha_{M-2}+\left(\alpha_{M-1}+\alpha_{M}\right)\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{M-2}\right) \Gamma\left(\alpha_{M-1}+\alpha_{M}\right)}} 。
帰納法の仮定より、この確率分布は正規化されている。
上記のp_{M−1} の定数部分は
\begin{aligned}
& C_{M} \frac{\Gamma\left(\alpha_{M-1}\right) \Gamma\left(\alpha_{M}\right)}{\Gamma\left(\alpha_{M-1}+\alpha_{M}\right)} \\=& \frac{\Gamma\left(\alpha_{1}+\cdots+\alpha_{M}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{M}\right)} \frac{\Gamma\left(\alpha_{M-1}\right) \Gamma\left(\alpha_{M}\right)}{\Gamma\left(\alpha_{M-1}+\alpha_{M}\right)} \\=& \frac{\Gamma\left(\alpha_{1}+\cdots+\alpha_{M-2}+\left(\alpha_{M-1}+\alpha_{M}\right)\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{M-2}\right) \Gamma\left(\alpha_{M-1}+\alpha_{M}\right)} \\=& C_{M-1}
\end{aligned}
よって、M 変数のディリクレ分布も正規化されていることが示された。
演習 2.10
ガンマ関数の性質\Gamma(x+1)=x\Gamma(x) を用いて,
\operatorname{Dir}(\boldsymbol{\mu} | \boldsymbol{\alpha})=\frac{\Gamma\left(\alpha_{1}+\cdots+\alpha_{K}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \tag{2.38}
のディリクレ分布の平均,分散,および共分散の結果を導出せよ.
\begin{aligned}
\mathbb{E}[\mu_j] &= \frac{\alpha_j}{\alpha_0} \tag{2.273}
\end{aligned}
\begin{aligned}
\operatorname{var}[\mu_j] &= \frac{\alpha_j(\alpha_0 - \alpha_j)}{\alpha_0^2(\alpha_0 + 1)} \tag{2.274} \\
\end{aligned}
\begin{aligned}
\operatorname{cov}[\mu_j][\mu_l] &= -\frac{\alpha_j\alpha_l}{\alpha_0^2(\alpha_0 + 1)} \hspace{1em} (j \neq l) \tag{2.275}
\end{aligned}
ただし、\alpha_0 は
\alpha_0 = \sum_{k=1}^K\alpha_k \tag{2.39}
で定義されている。
ディリクレ分布は正規化されているので、
\int{\prod_{k=1}^{K}} \mu_{k}^{\alpha_{k}-1} d\boldsymbol{\mu}=\frac{\Gamma\left(\alpha_{1}\right) \Gamma\left(\alpha_{2}\right) \cdots \Gamma\left(\alpha_{K}\right)}{\Gamma\left(\alpha_{1}+\cdots+\alpha_{K}\right)}
平均\mathbb{E}[\mu_j] について、
\begin{aligned}
\mathbb{E}\left[\mu_{j}\right] &=\int \mu_{i} \operatorname{Dir}(\boldsymbol{\mu} | \boldsymbol{\alpha}) d \boldsymbol{\mu} \\
&=\frac{\Gamma\left(\alpha_{1}+\cdots +\alpha_{K}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)} \int \mu_{j} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} d \boldsymbol{\mu} \\
&=\frac{\Gamma\left(\alpha_{1}+\cdots +\alpha_{K}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)} \int \mu_{1}^{\alpha_{1}-1} \mu_{2}^{\alpha_{2}-1} \cdots \mu_{j}^{(\alpha_j +1)-1} \cdot \mu_{K}^{\alpha_{K}-1} d \boldsymbol{\mu}
\end{aligned}
ここで、ディリクレ分布のパラメータ\boldsymbol{\alpha} のうち、\alpha_j \to \alpha_j + 1 となったものだとみなせば、\displaystyle{\int{\prod_{k=1}^{K}} \mu_{k}^{\alpha_{k}-1} d\boldsymbol{\mu}=\frac{\Gamma\left(\alpha_{1}\right) \Gamma\left(\alpha_{2}\right) \cdots \Gamma\left(\alpha_{K}\right)}{\Gamma\left(\alpha_{1}+\cdots+\alpha_{K}\right)}} を利用して
\int \mu_{1}^{\alpha_{1}-1} \mu_{2}^{\alpha_{2}-1} \cdots \mu_{j}^{\left(\alpha_{j}+1\right)-1} \cdots \mu_{K}^{\alpha_{K}-1} d \boldsymbol{\mu}=\frac{\Gamma\left(\alpha_{1}\right) \Gamma\left(\alpha_{2}\right) \cdots \Gamma\left(\alpha_{j}+1\right) \cdots \Gamma\left(\alpha_{K}\right)}{\Gamma\left(\alpha_{1}+\cdots+\alpha_{K}+1\right)}
となるので、
\begin{aligned}
\mathbb{E}\left[\mu_{j}\right] &=\frac{\Gamma\left(\alpha_{1}+\cdots +\alpha_{K}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)} \cdot \frac{\Gamma\left(\alpha_{1}\right) \Gamma\left(\alpha_{2}\right) \cdots \Gamma\left(\alpha_{j}+1\right) \cdots \Gamma\left(\alpha_{K}\right)}{\Gamma\left(\alpha_{1}+\cdots+\alpha_{K}+1\right)} \\
&=\frac{\Gamma\left(\alpha_{1}+\cdots +\alpha_{K}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)} \cdot \frac{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)}{\Gamma\left(\alpha_{1}+\cdots+ \alpha_{K}\right)} \cdot \frac{\alpha_{j}}{\sum_{k=1}^{K} \alpha_{k}}=\frac{\alpha_{j}}{\alpha_{0}}
\end{aligned}
同様に、
\begin{aligned}
\mathbb{E}\left[\mu_{j}^{2}\right] &=\int \mu_{j}^{2} \operatorname{Dir}(\boldsymbol{\mu} | \boldsymbol{\alpha}) d \boldsymbol{\mu} \\ &=\frac{\Gamma\left(\alpha_{1}+\cdots \alpha_{K}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{K}\right)} \cdot \frac{\Gamma\left(\alpha_{1}\right) \Gamma\left(\alpha_{2}\right) \cdots \cdot \Gamma\left(\alpha_{j}+2\right) \cdots \Gamma\left(\alpha_{K}\right)}{\Gamma\left(\alpha_{1}+\cdots+\alpha_{K}+2\right)} \\
&=\frac{\alpha_{j}\left(\alpha_{j}+1\right)}{\alpha_{0}\left(\alpha_{0}+1\right)} \end{aligned}
と求まるので、分散\operatorname{var}[\mu_j] は
\begin{aligned}
\operatorname{var}\left[\mu_{j}\right] &=\mathbb{E}\left[\mu_{j}^{2}\right]-\left\{\mathbb{E}\left[\mu_{j}\right]\right\}^{2} \\
&=\frac{\alpha_{j}\left(\alpha_{j}+1\right)}{\alpha_{0}\left(\alpha_{0}+1\right)}-\frac{\alpha_{j}^{2}}{\alpha_{0}^{2}} \\
&=\frac{\alpha_{0} \alpha_{j}\left(\alpha_{j}+1\right)-\alpha_{j}^{2}\left(\alpha_{0}+1\right)}{\alpha_{0}^{2}\left(\alpha_{0}+1\right)} \\ &=\frac{\alpha_{j}\left(\alpha_{0}-\alpha_{j}\right)}{\alpha_{0}^{2}\left(\alpha_{0}+1\right)} \end{aligned}
共分散\operatorname{cov}[\mu_j, \mu_l] について、j\neq l のとき、
\begin{aligned}
\operatorname{cov}\left[\mu_{j}, \mu_{l}\right] &=\mathbb{E}\left[\mu_{j} \mu_{l}\right]-\mathbb{E}\left[\mu_{j}\right] \mathbb{E}\left[\mu_{l}\right] \\
&=\frac{\alpha_{j} \alpha_{l}}{\alpha_{0}\left(\alpha_{0}+1\right)}-\frac{\alpha_{j}}{\alpha_{0}} \cdot \frac{\alpha_{l}}{\alpha_{0}} \\
&=\frac{\alpha_{0} \alpha_{j} \alpha_{l}-\alpha_{j} \alpha_{l}\left(\alpha_{0}+1\right)}{\alpha_{0}^{2}\left(\alpha_{0}+1\right)} \\
&= - \frac{\alpha_{j} \alpha_{l}}{\alpha_{0}^{2}\left(\alpha_{0}+1\right)}
\end{aligned}
演習 2.11
ディリクレ分布の下での\ln \mu_j の期待値を,\alpha_j についての導関数として表すと,
\begin{aligned}
\mathbb{E}[\ln \mu_j]=\psi(\alpha_j)-\psi(\alpha_0) \tag{2.276}
\end{aligned}
になることを示せ.ただし\alpha_0 は(2.39) で定義され,\psi(\cdot) はディガンマ関数 (digamma function)
\begin{aligned}
\psi(a) \equiv \frac{d}{d a} \ln \Gamma(a) \tag{2.277}
\end{aligned}
である.
ディリクレ分布は(2.38) 式から
\operatorname{Dir}(\mathbf{\mu} \mid \mathbf{\alpha})=K(\mathbf{\alpha}) \prod_{k=1}^{M} \mu_{k}^{\alpha_{k}-1}
である。ただし、簡単のために\displaystyle K(\mathbf{\alpha})=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{1}\right) \cdots \Gamma\left(\alpha_{M}\right)} と置いた。ただし、\alpha_0 = \sum_{k=1}^{M}\alpha_k である(ちなみにPRML本文内の記述と違い、和の上限の文字がK からM に変更になっている)。
この設問で求める値はディリクレ分布の下での期待値なので、定義から\displaystyle \mathbb{E}[\ln \mu_j] = \int \ln \mu_j \operatorname{Dir}(\mathbf{\mu} \mid \mathbf{\alpha}) d {\mu}
である。
この設問の準備として以下の計算を行っておく。
\frac{\partial}{\partial \alpha_j}\prod_{k=1}^{M}\mu_k^{\alpha_k-1}=\frac{\partial}{\partial \alpha_j}\prod_{k=1}^{M} \exp((\alpha_k-1)\ln \mu_k)
これは\exp\left((\alpha_j-1)\ln \mu_j\right) のみ\alpha_j で微分すれば良いので
\frac{\partial}{\partial \alpha_j}\left\{ \exp \left( (\alpha_j - 1) \ln \mu_j \right)\right\} = \ln \mu_j \exp\left( (\alpha_j - 1) \ln \mu_j \right)
から、
\frac{\partial}{\partial \alpha_j}\prod_{k=1}^{M}\mu_k^{\alpha_k-1}=\ln \mu_j \prod_{k=1}^M \exp((\alpha_k-1)\ln \mu_k)=\ln \mu_j \prod_{k=1}^{M}\mu_k^{\alpha_k-1}
となる。
よって、
\begin{aligned}
\mathbb{E}\left[\ln \mu_{j}\right] &=K(\mathbf{\alpha}) \int_{0}^{1} \cdots \int_{0}^{1} \ln \mu_{j} \prod_{k=1}^{M} \mu_{k}^{\alpha_{k}-1} \mathrm{d} \mu_{1} \ldots \mathrm{d} \mu_{M} \\
&=K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \int_{0}^{1} \ldots \int_{0}^{1} \prod_{k=1}^{M} \mu_{k}^{\alpha_{k}-1} \mathrm{d} \mu_{1} \ldots \mathrm{d} \mu_{M} \\
&=K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \frac{1}{K(\mathbf{\alpha})}
\end{aligned}
最後はディリクレ分布が正規化されていること \displaystyle \int \operatorname{Dir}(\mathbf{\mu} \mid \mathbf{\alpha}) d \mathbf{\mu} = 1 から\displaystyle \int_{0}^{1} \ldots \int_{0}^{1} \prod_{k=1}^{M} \mu_{k}^{\alpha_{k}-1} \mathrm{d} \mu_{1} \ldots \mathrm{d} \mu_{M} = \frac{1}{K(\alpha)} となることを用いた。
この式についてさらに\displaystyle K(\alpha) = \frac{\Gamma(\alpha_0)}{\prod_{i=1}^M \Gamma(\alpha_k)} を使って展開すると
\begin{aligned} \mathbb{E}\left[\ln \mu_{j}\right]
&=\frac{\Gamma\left(\alpha_{0}\right)}{\prod_{i=1}^{M} \Gamma\left(\alpha_{k}\right)} \frac{\partial}{\partial \alpha_{j}} \frac{\prod_{i=1}^{M} \Gamma\left(\alpha_{k}\right)}{\Gamma\left(\alpha_{0}\right)} \\
&=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{j}\right)} \frac{\partial}{\partial \alpha_{j}} \frac{\Gamma\left(\alpha_{j}\right)}{\Gamma\left(\alpha_{0}\right)}\hspace{2em}\left(\because 約分 \right) \\
&=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{j}\right)}
\left[
\frac{1}{\left\{\Gamma\left(\alpha_{0}\right)\right\}^2}
\left\{ \left( \frac{\partial}{\partial \alpha_{j}} \Gamma\left(\alpha_{j}\right) \right) \Gamma\left(\alpha_{0}\right)-\Gamma\left(\alpha_{j}\right)\left(\frac{\partial}{\partial \alpha_{j}} \Gamma\left(\alpha_{0}\right)\right)\right\}
\right] \\
&=\frac{1}{\Gamma\left(\alpha_{j}\right)}
\left(\frac{\partial}{\partial \alpha_{j}} \Gamma\left(\alpha_{j}\right)\right) -\frac{1}{\Gamma\left(\alpha_{0}\right)}\left(\frac{\partial}{\partial \alpha_{j}} \Gamma\left(\alpha_{0}\right)\right)\\
&=\frac{\partial}{\partial \alpha_{j}} \ln \Gamma\left(\alpha_{j}\right)-\frac{1}{\Gamma\left(\alpha_{0}\right)}\left(\frac{\partial}{\partial \alpha_{0}} \frac{\partial \alpha_{0}}{\partial \alpha_{j}} \Gamma\left(\alpha_{0}\right)\right) \\
&=\frac{\partial}{\partial \alpha_{j}} \ln \Gamma\left(\alpha_{j}\right)-\frac{\partial}{\partial \alpha_{0}} \ln \Gamma\left(\alpha_{0}\right) \hspace{2em}
\left( \because \alpha_0 = \sum_{k=1}^M \alpha_k より, \frac{\partial \alpha_{0}}{\partial \alpha_{j}} = 1\right)
\end{aligned}
最後にディガンマ関数の定義\displaystyle \psi(a) \equiv \frac{d}{d a} \ln \Gamma(a) を使うと
\mathbb{E}\left[\ln \mu_{j}\right] = \psi(\alpha_j) - \psi(\alpha_0)
が導かれる。
※ \alpha_j, \alpha_0 は1変数なので偏微分記号\partial 、全微分記号d どちらで微分しても結果は同じである
演習 2.12
連続変数x の一様分布は
\mathrm{U}(x | a, b)=\frac{1}{b-a}, \quad a \leq x \leq b \tag{2.278}
で定義される.この分布が正規化されていることを確かめ,この分布の平均と分散の式を求めよ.
まず\displaystyle \int_a^b \frac{1}{b-a}dx = 1 を証明する。
\int_a^b \frac{1}{b-a}dx = \frac{1}{b-a}\int_a^b1dx = \frac{1}{b-a}(b-a)=1
よって分布が正規化されていることが示された。
分布の平均\mathbb{E}[x] は
\mathbb{E}[x] = \int_a^b x \frac{1}{b-a}dx
=\frac{1}{b-a}\left[ \frac{x^2}{2} \right]_{a}^{b}
=\frac{b+a}{2}
分布の分散は
\begin{aligned}
\operatorname{var}[x]
&= \mathbb{E}[x^2]-(\mathbb{E}[x])^2 \\
&= \frac{1}{b-a}\left[ \frac{x^3}{3} \right]_{a}^{b}-\left( \frac{b+a}{2} \right)^2 \\
&= \frac{b^2+ab+a^2}{3}-\frac{b^2+2ab+a^2}{4} \\
&= \frac{(b-a)^2}{12}
\end{aligned}
である。
演習 2.13
2つのガウス分布p(\mathbf{x})=\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) とq(\mathbf{x})=\mathcal{N}(\mathbf{x} | \boldsymbol{m}, \mathbf{L}) の間のカルバック-ライブラーダイバージェンス
\begin{align}
\mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d} \mathbf{x}-\left(-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\right) \\
&=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \tag{1.113}
\end{align}
を求めよ.
※ 演習問題2.15とほぼ同じ操作を2回やるので、先に2.15をやってきたほうが良い。また、一般にガウス分布の指数部分では二次形式とトレースの関係を利用すると計算が楽になり見通しもよくなることが多い。「二次形式があればトレースを利用するかもしれない」くらいの心持ちを持っていると良いかもしれない。
問題文から
\mathrm{KL}(p \| q) =-\int p(\mathbf{x}) \ln q(\mathbf{x}) d\mathbf{x}+\int p(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x}
に分解できる。
この第2項は演習問題2.15や付録(B.41)で求められるように(2.15の方を参照)、
\int p(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x} = -\frac{1}{2} \ln |\mathbf{\Sigma}| - \frac{D}{2}\left\{ 1 + \ln (2 \pi) \right\} \tag{1}
である。そこで、第1項を求める。
\begin{aligned}
& -\int p(\mathbf{x}) \ln q(\mathbf{x}) d\mathbf{x} \\
&=\int \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}) \cdot \frac{1}{2}\left\{D \ln (2 \pi)+\ln |\mathbf{L}|+(\mathbf{x}-\mathbf{m})^{\mathrm{T}} \mathbf{L}^{-1}(\mathbf{x}-\mathbf{m})\right\} d \mathbf{x} \\
&=\frac{1}{2}\left\{(D \ln (2 \pi)+\ln |\mathbf{L}|) \int \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}) d \mathbf{x}\right\}+\frac{1}{2} \int \mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}\right) \operatorname{Tr}\left[(\mathbf{x}-\mathbf{m})^{\mathrm{T}} \mathbf{L}^{-1} (\mathbf{x}-\mathbf{m})\right] d\mathbf{x} \\
&\hspace{2em} (\because 二次形式はスカラーなので \mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}} = \operatorname{Tr}[\mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}}] \\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{L}|\}+\frac{1}{2} \int \mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}\right) \operatorname{Tr}\left[(\mathbf{x}-\mathbf{m})(\mathbf{x}-\mathbf{m})^{\mathrm{T}} \mathbf{L}^{-1}\right] d \mathbf{x} \\
&\hspace{2em} (\because トレースの循環性\operatorname{Tr}[\mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}}] = \operatorname{Tr}[\mathbf{xx^{\mathrm{T}}\mathbf{\Sigma}}] )\\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{L}|\}
+\frac{1}{2}\left\{\left(\operatorname{Tr}\left[\int \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \Sigma) \mathbf{xx}^{\mathrm{T}} \mathbf{L}^{-1}d \mathbf{x} \right]
-\operatorname{Tr}\left[\int \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}) \mathbf{x}\mathbf{m}^{\mathrm{T}} \mathbf{L}^{-1}d \mathbf{x} \right]-\operatorname{Tr}\left[\int \mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma}) \mathbf{m} \mathbf{x}^{\mathrm{T}} \mathbf{L}^{-1} d \mathbf{x} \right]
+\operatorname{Tr}\left[\int \mathcal{N}\left(\mathbf{x}|\boldsymbol{\mu}, \mathbf{\Sigma}\right) \mathbf{mm}^{\mathrm{T}} \mathbf{L}^{-1} d \mathbf{x}\right] \right) \right\} \\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{L}|\}
+\frac{1}{2}\left\{\operatorname{Tr}\left[\left(\boldsymbol{\mu\mu}^{\mathrm{T}}+\mathbf{\Sigma}\right) \mathbf{L}^{-1}\right]
-\operatorname{Tr} \left[\boldsymbol{\mu} \mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\right]
-\operatorname{Tr}\left[\mathbf{m} \boldsymbol{\mu}^{\mathrm{T}} \mathbf{L}^{-1}\right]
+\operatorname{Tr}\left[\mathbf{mm}^{\mathrm{T}} \mathbf{L}^{-1}\right] \right\}\\
&=\frac{1}{2}\{D \ln (2 \pi)+\ln |\mathbf{L}|\}+\frac{1}{2}\left\{\operatorname{Tr}\left[\left(\boldsymbol{\mu\mu}^{\mathrm{T}}+\mathbf{\Sigma}\right)\mathbf{L}^{-1}\right]
-\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\boldsymbol{\mu}
-\boldsymbol{\mu}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}
+\mathbf{m}^{\mathrm{T}}\mathbf{L}^{-1}\mathbf{m}
\right\}\hspace{2em} (\because \operatorname{Tr}[\mathbf{x^{\mathrm{T}}\mathbf{\Sigma}\mathbf{x}}] = \mathbf{xx}^{\mathrm{T}}\mathbf{\Sigma} )
\end{aligned}
これと(1) の結果から、
\begin{aligned}
\mathrm{KL}(p \| q)
&=-\int p(\mathbf{x}) \ln q(\mathbf{x}) d\mathbf{x}+\int p(\mathbf{x}) \ln p(\mathbf{x}) d\mathbf{x} \\
&= \frac{1}{2}\left(\ln \frac{|\mathbf{L}|}{|\Sigma|}+\operatorname{Tr}\left[\left(\boldsymbol{\mu\mu}^{\mathrm{T}}+\mathbf{\Sigma}\right)\mathbf{L}^{-1}\right]
-\mathbf{m}^{\mathrm{T}} \mathbf{L}^{-1} \boldsymbol{\mu}
-\boldsymbol{\mu}^{\mathrm{T}} \mathbf{L}^{-1} \mathbf{m}
+\mathbf{m}^{\mathrm{T}} \mathbf{L}^{-1} \mathbf{m}-D\right)
\end{aligned}
※ちなみに\operatorname{Tr}(\mathbf{AB}) = \operatorname{Tr}(\mathbf{BA}) が成り立つので\operatorname{Tr}\left[\left(\boldsymbol{\mu\mu}^{\mathrm{T}}+\mathbf{\Sigma}\right)\mathbf{L}^{-1}\right] = \operatorname{Tr}\left[\mathbf{L}^{-1}\left(\boldsymbol{\mu\mu}^{\mathrm{T}}+\mathbf{\Sigma}\right)\right] でも良い(公式解答例の記述)。
※精度行列\mathbf{L}^{-1} は演習2.17の結果から一般性を失うことなく共分散行列\mathbf{L} を対称行列とおいても問題なく、演習2.22の結果から\mathbf{L}^{-1} も対称行列となるので\mathbf{m}^{\mathrm{T}} \mathbf{L}^{-1} \boldsymbol{\mu}=\boldsymbol{\mu}^{\mathrm{T}} \mathbf{L}^{-1} \mathbf{m} が成立するため、まとめて2\mathbf{m}^{\mathrm{T}} \mathbf{L}^{-1} \boldsymbol{\mu} と書いてもよい気がする。
演習 2.14
この演習問題では,共分散が与えられているときに,エントロピーを最大にする多変量分布はガウス分布であることを示す.まず,分布p(\mathbf{x}) のエントロピーは
\mathrm{H}[\mathrm{x}]=-\int p(\mathrm{x}) \ln p(\mathrm{x}) \mathrm{d} \mathrm{x} \tag{2.279}
である.そして,分布p(\mathbf{x}) が正規化されていることと,平均と共分散が固定されているということを示す制約式
\begin{aligned}
\int p(\mathbf{x}) \mathrm{d} \mathbf{x}=1 \tag{2.280}
\end{aligned}
\begin{aligned}
\int p(\mathbf{x}) \mathbf{x} \mathrm{d} \mathbf{x}=\boldsymbol{\mu} \tag{2.281}
\end{aligned}
\begin{aligned}
\int p(\mathbf{x})(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathrm{d} \mathbf{x}=\mathbf{\Sigma} \tag{2.282}
\end{aligned}
を満たすすべての分布中で,この\mathrm{H}[\mathbf{x}] を最大化したい制約(2.280) ,(2.281) ,および(2.282) を扱うためにラグランジュ乗数を用い,(2.279) を変分最大化し,尤度を最大にする分布がガウス分布(2.43) であることを示せ.
ラグランジュ乗数を用いて、\mathrm{H}[\mathbf{x}] を最大化する、そのため、ラグランジュ乗数として、定数、D 次元ベクトルとD*D 次元の行列を定義して代入すると
\begin{aligned}
\widetilde{H}[p] &= -\int{p(\mathbf{x})\ln{p(\mathbf{x})}}\mathrm{d}\mathbf{x} + \lambda(\int{p(\mathbf{x})}\mathrm{d}\mathbf{x}-1)\\
&+ \mathbf{m}^\top (\int{p(\mathbf{x})\mathbf{x}}\mathrm{d}\mathbf{x}-\boldsymbol{\mu})\\
&+ \mathbf{tr}\{\mathbf{L}\int{p(\mathbf{x})(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^\top}\mathrm{d}\mathbf{x} - \mathbf{\Sigma}\}\\
\end{aligned}
となる.
この式の導関数を求め,さらに導関数を0にした時のp(\mathbf{x}) を求めよう
\begin{aligned}
\frac{\mathrm{d}\widetilde{H}[p(\mathbf{x})]}{\mathrm{d}p(\mathbf{x})} &= -1-\ln{p(\mathbf{x})} + \lambda + \mathbf{m}^\top \mathbf{x} + \mathbf{tr}\{\mathbf{L}(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^\top\}\\
\frac{\mathrm{d}\widetilde{H}[p(\mathbf{x})]}{\mathrm{d}p(\mathbf{x})} &= 0\\
\ln{p(\mathbf{x})} &= -1+ \lambda + \mathbf{m}^\top \mathbf{x} + \mathbf{tr}\{\mathbf{L}(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^\top\}\\
p(\mathbf{x}) &= \mathrm{exp}\{\lambda -1+ \mathbf{m}^\top \mathbf{x} + \mathbf{tr}\{\mathbf{L}(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^\top\}\}\\
&= \mathrm{exp}\{\lambda - 1 + \mathbf{y}^\top \mathbf{L}\mathbf{y} + \boldsymbol{\mu} ^\top \mathbf{m} - \frac{1}{4}\mathbf{m}^\top\mathbf{L}^{-1}\mathbf{m}\}\\
\end{aligned}
となる,ただし\mathbf{y} = \mathbf{x} - \mu + \frac{1}{2}\mathbf{L}^{-1}\mathbf{m} .
またp(\mathbf{x}) は制約(2.280) ,(2.281) ,および(2.282) を満たし,p(\mathbf{x}) を(2.280) ,(2.281) に代入すると
\begin{aligned}
\int{\mathrm{exp}\{\lambda - 1 + \mathbf{y}^\top \mathbf{L}\mathbf{y} + \boldsymbol{\mu} ^\top \mathbf{m} - \frac{1}{4}\mathbf{m}^\top\mathbf{L}^{-1}\mathbf{m}\}}\mathrm{d}\mathbf{y} &= 1\\
\int{\mathrm{exp}\{\lambda - 1 + \mathbf{y}^\top \mathbf{L}\mathbf{y} + \boldsymbol{\mu} ^\top \mathbf{m} - \frac{1}{4}\mathbf{m}^\top\mathbf{L}^{-1}\mathbf{m}\}(\mathbf{y} + \boldsymbol{\mu} - \frac{1}{2}\mathbf{L}^{-1}\mathbf{m})}\mathrm{d}\mathbf{y} &= \boldsymbol{\mu}\\
\end{aligned}
\begin{aligned}
(\boldsymbol{\mu} - \frac{1}{2}\mathbf{L}^{-1}\mathbf{m})\int{\mathrm{exp}\{\lambda - 1 + \mathbf{y}^\top \mathbf{L}\mathbf{y} + \boldsymbol{\mu} ^\top \mathbf{m} - \frac{1}{4}\mathbf{m}^\top\mathbf{L}^{-1}\mathbf{m}\}}\mathrm{d}\mathbf{y} \\+ \int{\mathrm{exp}\{\lambda - 1 + \mathbf{y}^\top \mathbf{L}\mathbf{y} + \boldsymbol{\mu} ^\top \mathbf{m} - \frac{1}{4}\mathbf{m}^\top\mathbf{L}^{-1}\mathbf{m}\}\mathbf{y}}\mathrm{d}\mathbf{y} = \boldsymbol{\mu}\\
\boldsymbol{\mu} - \frac{1}{2}\mathbf{L}^{-1}\mathbf{m} = \boldsymbol{\mu}\\
\end{aligned}
となって,\mathbf{m}=\mathbf{0} であることが分かって,p(\mathbf{x}) = \mathrm{exp}\{\lambda - 1 + (\mathbf{x}-\boldsymbol{\mu})^\top \mathbf{L}(\mathbf{x}-\boldsymbol{\mu})\} となる.
さらに,(2.282) に代入すると
\begin{aligned}
\int{\mathrm{exp}\{\lambda - 1 + (\mathbf{x} - \boldsymbol{\mu})\mathbf{L}(\mathbf{x} - \boldsymbol{\mu})^\top\}(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^\top}\mathrm{d}\mathbf{x} &= \mathbf{\Sigma}\\
\end{aligned}
となる.\mathbf{z} = \mathbf{x} - \boldsymbol{\mu} で書き換えると
\begin{aligned}
\int{\mathrm{exp}\{\lambda - 1 + \mathbf{z}\mathbf{L}\mathbf{z}^\top\}\mathbf{z}\mathbf{z}^\top}\mathrm{d}\mathbf{x} &= \mathbf{\Sigma}\\
\mathrm{exp}(\lambda - 1)\int{\mathrm{exp}\{\mathbf{z}\mathbf{L}\mathbf{z}^\top\}\mathbf{z}\mathbf{z}^\top}\mathrm{d}\mathbf{x} &= \mathbf{\Sigma}\\
\end{aligned}
となる.(2.61) と比較すると,\mathbf{L} = -\frac{1}{2} \Sigma^{-1} であることがわかる.
またここで,\mathrm{exp}(\lambda - 1) は正規化されていることを保証しているため
\begin{aligned}
\mathrm{exp}(\lambda - 1) &= \frac{1}{(2\pi)^\frac{1}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\\
\lambda &= \ln\left\{\frac{1}{(2\pi)^\frac{1}{2}}\frac{1}{|\mathbf{\Sigma}|^\frac{1}{2}}\right\} + 1
\end{aligned}
となる.
演習 2.15
多変量ガウス分布\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) のエントロピーが
\mathrm{H}[\mathbf{x}]=\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{D}{2}(1+\ln (2 \pi)) \tag{2.283}
となることを示せ.ただし,D は\mathbf{x} の次元数である.
エントロピーの定義の式(1.104) に直接ガウス分布の式(2.43) を代入して式を変形していく。ガウス分布が正規化されていること\displaystyle \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} = 1 を利用する。
\begin{aligned}
\mathrm{H}[\mathbf{x}]
&=-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\\
&=-\int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \ln \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} \\
&= \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \cdot \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \} \mathrm{d} \mathbf{x} \\
&= \frac{1}{2} \left\{ D \ln(2 \pi) \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} + \ln |\mathbf{\Sigma}| \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathrm{d} \mathbf{x} + \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \mathrm{d} \mathrm{x} \right\} \\
&= \frac{1}{2} \left\{ D \ln(2 \pi) \cdot 1 + \ln |\mathbf{\Sigma}| \cdot 1 + \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \mathrm{d} \mathbf{x} \right\}
\end{aligned}
ここで、第3項\displaystyle \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \mathrm{d} \mathbf{x} について、二次形式とトレースの関係の式 \mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x} = \mathrm{Tr}(\mathbf{Axx}^{\mathrm{T}}) を使って変形する。これは任意のm \times n 行列\mathbf{M} とn \times m 行列\mathbf{N} に対して\mathrm{Tr}(\mathbf{MN}) = \mathrm{Tr}(\mathbf{NM}) が成立する(統計のための行列代数 上巻 第5章 補助定理5.2.1)ことから容易に示せる(下記)。また、トレースの値はスカラーであり、任意のスカラーk と任意の正方行列\mathbf{A} , \mathbf{B} に対して以下の性質(トレースの線形性 )が成立することを利用する(※統計のための行列代数 上巻 第5章 5.1)。
\begin{aligned}
\mathrm{Tr}(k\mathbf{A}) &= k\mathrm{Tr}(\mathbf{A}) \\
\mathrm{Tr}(\mathbf{A}+\mathbf{B}) &= \mathrm{Tr}({\mathbf{A}}) + \mathrm{Tr}({\mathbf{B}})
\end{aligned}
また、\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) はスカラーであるので、\displaystyle \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathrm{Tr}(\mathbf{A}) = \mathrm{Tr}(\mathbf{\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) A}) と変形できる。
以上から、
\begin{aligned}
& \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \mathrm{d} \mathbf{x} \\
=& \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathrm{Tr
}\left( \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \right)\mathrm{d} \mathbf{x} \\
=& \int \mathrm{Tr} \left[ \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \left( \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \right)\right]\mathrm{d} \mathbf{x} \\
=& \int \mathrm{Tr} \left[ \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) (\mathbf{x} \mathbf{x}^\mathrm{T} - \mathbf{x} \boldsymbol{\mu}^\mathrm{T} - \boldsymbol{\mu} \mathbf{x}^\mathrm{T} + \boldsymbol{\mu} \boldsymbol{\mu}^\mathrm{T}) \mathbf{\Sigma}^{-1} \right] \mathrm{d} \mathbf{x} \hspace{1em} (\because \mathrm{Tr}(\mathbf{MN}) = \mathrm{Tr}(\mathbf{NM})) \\
=& \int \mathrm{Tr} \left[ \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) (\mathbf{x} \mathbf{x}^\mathrm{T} - 2\mathbf{x} \boldsymbol{\mu}^\mathrm{T} + \boldsymbol{\mu} \boldsymbol{\mu}^\mathrm{T}) \mathbf{\Sigma}^{-1} \right] \mathrm{d} \mathbf{x} \hspace{1em} (\because \mathrm{Tr}(\mathbf{x}\boldsymbol{\mu}^{\mathrm{T}}) = \mathrm{Tr}(\boldsymbol{\mu}\mathbf{x}^{\mathrm{T}}))\\
=& \int \mathrm{Tr} [ \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathbf{xx}^\mathrm{T} \mathbf{\Sigma}^{-1} ] \mathrm{d} \mathbf{x}
-2 \int \mathrm{Tr} [ \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\mathbf{x} \boldsymbol{\mu}^\mathrm{T} \mathbf{\Sigma}^{-1} ]\mathrm{d} \mathbf{x}
+ \int \mathrm{Tr} [ \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\boldsymbol{\mu} \boldsymbol{\mu}^\mathrm{T} \mathbf{\Sigma}^{-1} ] \mathrm{d} \mathbf{x} \\
=& \mathrm{Tr} \left[ \left\{ \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathbf{xx}^\mathrm{T} \mathrm{d} \mathbf{x} -2 \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\mathbf{x} \boldsymbol{\mu}^\mathrm{T} \mathrm{d} \mathbf{x} + \int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\boldsymbol{\mu} \boldsymbol{\mu}^\mathrm{T} \right\} \mathbf{\Sigma}^{-1}\right] \\
\end{aligned}
ここで、(2.59) と(2.62) より
\int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathbf{x} \mathrm{d} \mathbf{x} = \boldsymbol{\mu}
\int \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \mathbf{xx}^\mathrm{T} \mathrm{d} \mathbf{x} = \boldsymbol{\mu\mu}^\mathrm{T} + \mathbf{\Sigma}
ゆえに
\begin{aligned}
\mathrm{H}[\mathbf{x}]
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + \mathrm{Tr}[ \{ (\boldsymbol{\mu} \boldsymbol{\mu}^\mathrm{T} + \mathbf{\Sigma}) - 2 \boldsymbol{\mu} \boldsymbol{\mu}^T + \boldsymbol{\mu} \boldsymbol{\mu}^\mathrm{T} \} \mathbf{\Sigma}^{-1} ]\} \\
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + \mathrm{Tr}[ \mathbf{\Sigma} \mathbf{\Sigma}^{-1}] \} \\
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + \mathrm{Tr}[ \mathbf{I} ] \} \\
&= \frac{1}{2} \{ D \ln(2 \pi) + \ln |\mathbf{\Sigma}| + D \} \\
&= \frac{1}{2} \ln |\mathbf{\Sigma}| + \frac{D}{2}\left\{ 1 + \ln (2 \pi) \right\}
\end{aligned}
したがって題意が示された。
※ 二次形式とトレースの関係\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x} = \mathrm{Tr}(\mathbf{Axx}^{\mathrm{T}}) の証明は、任意のm \times n 行列\mathbf{M} とn \times m 行列\mathbf{N} に対して\mathrm{Tr}(\mathbf{MN}) = \mathrm{Tr}(\mathbf{NM}) が成立する(統計のための行列代数 上巻 第5章 補助定理5.2.1)ことを利用すれば以下のようにして簡単に求められる。
まず二次形式の値はスカラー(1 \times 1 行列)なので\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x} = \mathrm{Tr}(\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x}) となる。ここで、\mathrm{Tr}(\mathbf{MN}) = \mathrm{Tr}(\mathbf{NM}) の定理において\mathbf{M} = \mathbf{x}^{\mathrm{T}} , \mathbf{N} = \mathbf{Ax} とすれば\mathrm{Tr}(\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x}) = \mathrm{Tr}(\mathbf{A}\mathbf{x}\mathbf{x}^{\mathrm{T}}) となるので、\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x} = \mathrm{Tr}(\mathbf{Axx}^{\mathrm{T}}) となることが示された。
演習 2.16
2つの確率変数x_1 とx_2 を考える.これらはそれぞれ平均が\mu_1 と\mu_2 で,精度が\tau_1 と\tau_2 のガウス分布に従うとする.このとき,変数x=x_1+x_2 の微分エントロピーの式を導出せよ.これには,まず,次の関係を用いてx の分布を求め,指数部分を平方完成する.
p(x)=\int_{-\infty}^{\infty} p\left(x | x_{2}\right) p\left(x_{2}\right) \mathrm{d} x_{2} \tag{2.284}
次に,これが2つのガウス分布のたたみ込みになっており,また,これ自体もガウス分布になっていることに注目する.最後に1変数のガウス分布のエントロピーの結果
\mathrm{H}[x] = \frac{1}{2}\{ 1+\ln(2\pi\sigma^2) \} \tag{1.110}
を利用する.
x_1 、x_2 について、問題文の条件より
p(x_1) = \mathcal{N}(x_1 | \mu_1, \gamma_1^{-1})
p(x_2) = \mathcal{N}(x_2 | \mu_2, \gamma_2^{-1})
変数x = x_1 + x_2 について、x_2 が観測され固定された数とみなすと、x はx_1 の線形関数とみなせる。
よってp(x|x_2) の分布の平均はx_1 の平均\mu_1 にx_2 を足したものとなり、分散はx_1 の分散\gamma_1^{-1} となる。
ゆえに
p(x|x_2) = \mathcal{N}(x | \mu_1 + x_2, \gamma_1^{-1}) (2.284)
\begin{aligned}p(x) &= \int_{-\infty}^{\infty} \mathcal{N}(x | \mu_1 + x_2, \gamma_1^{-1}) \cdot \mathcal{N}(x_2 | \mu_2, \gamma_2^{-1}) \mathrm{d} x_2 \\&= \int_{-\infty}^{\infty} \left( \frac{\gamma_1}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{- \frac{\gamma_1}{2} (x - \mu_1 - x_2)^2 \right\} \cdot \left( \frac{\gamma_2}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{- \frac{\gamma_2}{2} (x_2 - \mu_2)^2 \right\} \mathrm{d} x_2 \\&= \int_{-\infty}^{\infty} \left( \frac{\gamma_1}{2 \pi} \right)^{\frac{1}{2}} \left( \frac{\gamma_2}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{- \frac{\gamma_1}{2} (x - \mu_1 - x_2)^2 - \frac{\gamma_2}{2} (x_2 - \mu_2)^2 \right\} \mathrm{d} x_2 \end{aligned}
この式の指数部分をx_2 について平方完成すると
\begin{aligned} - \frac{\gamma_1}{2} (x - \mu_1 - x_2)^2 - \frac{\gamma_2}{2} (x_2 - \mu_2)^2 &= - \frac{1}{2} (\gamma_1 + \gamma_2) x_2^2 + \{ \gamma_1(x - \mu_1) + \gamma_2 \mu_2 \} x_2 - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2 \\&= - \frac{1}{2} (\gamma_1 + \gamma_2) \left\{ x_2 - \frac{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2}{\gamma_1 + \gamma_2} \right\}^2 + \frac{\{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2\}^2}{2 (\gamma_1 + \gamma_2)} - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2 \end{aligned}
ここで、
m = \frac{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2}{\gamma_1 + \gamma_2}
と置くと、指数部分の式は以下のように表せる。
- \frac{\gamma_1 + \gamma_2}{2} \left( x_2 - m \right)^2 + \frac{\{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2\}^2}{2 (\gamma_1 + \gamma_2)} - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2
この式のx_2 への依存性を見てみると、ガウス分布の標準的な二次形式部分である第一項に、x_2 に依存しない項を足したものとなっている。
ここでx_2 を積分消去すると、指数部分の式は第二項以降となる。
x の精度は指数部分の式のx^2 の係数で直接与えられるため、上記式の第二項以降の項においてx^2 の係数を計算すると
\begin{aligned} \frac{\{\gamma_1 (x - \mu_1) + \gamma_2 \mu_2\}^2}{2 (\gamma_1 + \gamma_2)} - \frac{\gamma_1}{2}(x - \mu_1)^2 - \frac{\gamma_2}{2} \mu_2^2 &= \frac{\gamma_1^2}{2 (\gamma_1 + \gamma_2)} x^2 - \frac{\gamma_1}{2} x^2 + \text{const} \\&= - \frac{1}{2} \frac{\gamma_1 \gamma_2}{\gamma_1 + \gamma_2} x^2 + \text{const} \end{aligned}
ただし、\text{const} はx^2 に依存しない数を表す。
ガウス分布の式(2.42)との比較から、x の精度を\gamma とすると
\gamma = \frac{\gamma_1 \gamma_2}{\gamma_1 + \gamma_2}
が得られる。
(1.110) の式から微分エントロピーは
\begin{aligned}\mathrm{H}[\mathbf{x}] &= \frac{1}{2} \left\{ 1 + \ln \left( \frac{2 \pi}{\gamma} \right) \right\} \\&= \frac{1}{2} \left\{ 1 + \ln \left( \frac{2 \pi (\gamma_1 + \gamma_2)}{\gamma_1 \gamma_2} \right) \right\} \end{aligned}
演習 2.17
(2.43) の多変量ガウス分布を考える精度行列(逆共分散行列)\mathbf{\Sigma^{-1}} を対称行列と反対称行列(歪対称行列)の和の形で書くと,反対称行列の項がガウス分布の指数部分には現れなくなるため,一般性を失うことなく精度行列は対称であるとしてよいことを示せ.この結果から,対称行列の逆行列も対称(演習2.22)なので,一般性を失うことなく,共分散行列にも対称なものを選んでよいことになる.
※ 演習1.14とやろうとしていることはほぼ同じです.行列の二次形式・対称行列・反対称行列についての定理をよく知っていれば瞬殺です.「統計のための行列代数」の第14章の補助定理14.1.1, 補助定理14.6.3あたりに出てきます.
補助定理14.6.3
n\times n 行列の\mathbf{A} は,あらゆるn 次元ベクトル\mathbf{x} に対して,\mathbf{x'Ax}=0 のときかつそのときに限って,歪対称行列(反対称行列)である.
また,任意の正方行列\mathbf{M} は対称行列\mathbf{A} と反対称行列\mathbf{S} の和でただ1通りに表現できることも必要です.先にそれを示します.
ちなみに対称行列\mathbf{A} と反対称行列\mathbf{S} の一般形は次の通り.
\mathbf{A}=\left(
\begin{array}{ccccc}a_{11} & a_{12} & a_{13} & \cdots & a_{1 n} \\ a_{12} & a_{22} & a_{23} & \cdots & a_{2 n} \\ a_{13} & a_{23} & a_{33} & \cdots & a_{3 n} \\ \vdots & \vdots & & \ddots & \vdots \\ a_{1 n} & a_{2 n} & a_{3 n} & \cdots & a_{n n}\end{array}
\right)
\mathbf{S}=\left(
\begin{array}{ccccc}0 & s_{12} & s_{13} & \cdots & s_{1 n} \\ -s_{12} & 0 & s_{23} & \cdots & s_{2 n} \\ -s_{13} & -s_{23} & 0 & \cdots & s_{3 n} \\ \vdots & \vdots & & \ddots & \vdots \\ -s_{1 n} & -s_{2 n} & -s_{3 n} & \cdots & 0\end{array}
\right)
(証明)
任意の正方行列\mathbf{M} に対し,\mathbf{(M+M}^{\mathrm{T}})^{\mathrm{T}}=\mathbf{M}^{\mathrm{T}}+{\mathbf M} なので,\mathbf{M}+\mathbf{M}^{\mathrm{T}} は対称行列である.また,\mathbf{(M-M}^{\mathrm{T}})^{\mathrm{T}}=-({\mathbf M}-\mathbf{M}^{\mathrm{T}}) なので,\mathbf{M}-{\mathbf M}^{\mathrm{T}} は反対称行列である.
よって,\displaystyle{\mathbf{A}=\frac{\mathbf{M}+\mathbf{M}^{\mathrm{T}}}{2}, \mathbf{S}=\frac{\mathbf{M}-\mathbf{M}^{\mathrm{T}}}{2}} とすれば,任意の正方行列\mathbf{M} は対称行列\mathbf{A} と反対称行列\mathbf{S} の和で表せることが示される.
また,これが1通りでのみ表せることを示す.そのために\mathbf{M}=\mathbf{A}_{1}+\mathbf{S}_{1}=\mathbf{A}_{2}+\mathbf{S}_{2} と仮定する.ここで,\mathbf{A}_1,\mathbf{A}_2 は対称行列,\mathbf{S}_1,\mathbf{S}_2 は反対称行列である.
上式を移行すると\mathbf{S}_{1}-\mathbf{S}_{2}=\mathbf{A}_{2}-\mathbf{A}_{1} であるが,\mathbf{S}_{1}-\mathbf{S}_{2} は反対称行列,\mathbf{A}_{2}-\mathbf{A}_{1} は対称行列となる.よって,これを満たすのは
\mathbf{S}_{1}-\mathbf{S}_{2}=\mathbf{A}_{2}-\mathbf{A}_{1} = \mathbf{O}
のときのみであり,\mathbf{S}_{1}=\mathbf{S}_{2} , \mathbf{A}_{1}=\mathbf{A}_{2} となる.したがって一意性が示された.
これにより,精度行列\mathbf{\Sigma}^{-1} も対称行列\frac{\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1})^{\mathrm T}}{2} , 反対称行列\frac{\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1})^{\mathrm T}}{2} に分解できる.
ガウス分布の二次形式部分(マハラノビス距離の部分)\Delta^2 = (\mathbf{x}-\boldsymbol{\mu})^{\mathrm T}\mathbf{\Sigma^{-1}}(\mathbf{x}-\boldsymbol{\mu}) の\mathbf{\Sigma^{-1}} の反対称要素は消えることを示す.
\mathbf{\Sigma^{-1}}=\mathbf{A}+\mathbf{S} と書く.ここで\mathbf{A} は対称行列,\mathbf{S} は反対称行列.
ここで,任意のD 次元ベクトル\mathbf{y} とD\times D の反対称行列\mathbf{S} について,
\mathbf{y}^{\mathrm T}{\mathbf{S}}{\mathbf{y}}=0
が成立することを示す(上述の補助定理14.6.3).任意のD\times D の行列\mathbf{M} を使うと
\begin{aligned}
\mathbf{y}^{\mathrm T}{\mathbf{S}}{\mathbf{y}} &=\sum_{j=1}^{D}\left(\sum_{i=1}^{D} y_{i} S_{i j}\right) y_{j} \\
&=\sum_{j=1}^{D} \sum_{i=1}^{D} y_{i} \cdot \frac{M_{ij}-M_{ji}}{2}\cdot y_{j} \\
&=\frac{1}{2} \left\{ \sum_{j=1}^{D} \sum_{i=1}^{D} y_{i} M_{ij} y_{j}-\sum_{j=1}^{D} \sum_{i=1}^{D} y_{j} M_{ji} y_{i}\right\} \\
&=0
\end{aligned}
よって,
\begin{aligned}
\Delta^{2} &=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}(\mathbf{A}+\mathbf{S})(\mathbf{x}-\boldsymbol{\mu}) \\
&=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{A}(\mathbf{x}-\boldsymbol{\mu})
\end{aligned}
つまり,反対称要素が消えることが示された.
演習 2.18
実対称行列\mathbf{\Sigma} を考える.この行列について(2.45)
\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_i
の固有値の方程式が成立する.この式の複素共役から,もとの式を引いた後,固有ベクトル\mathbf{u}_i との内積をとることで,固有値\lambda_i が実数となることを示せ.同様に,\mathbf{\Sigma} の対称性を用いて,2つの固有ベクトル\mathbf{u}_i と\mathbf{u}_j が,\lambda_j \neq \lambda_i であれば,直交することを示せ.最後に,たとえいくつかの固有値が0であっても,一般性を失うことなく,(2.46) 式 \mathbf{u}_i^{\mathrm{T}}\mathbf{u}_j = I_{ij} を満たす,正規直交となるように固有ベクトル集合を選ぶことが可能であることを示せ.
この問題は以下の3つの問題を証明していくことになる。
① 対称行列の固有値は実数となる。
② 異なる固有値に対応する固有ベクトル同士は直交する。
③ いくつかの固有値が0であっても、正規直交となるように固有ベクトル集合を選ぶことができる。
① 対称行列の固有値は実数となる。
(2.45) 式
\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_i
に左から随伴行列\mathbf{u}_i^{\dagger} をかけると(\lambda_i はスカラー値であることに注意する)
\mathbf{u}_i^{\dagger}\mathbf{\Sigma}\mathbf{u}_i = \mathbf{u}_i^{\dagger}\lambda_i\mathbf{u}_i
\mathbf{u}_i^{\dagger}\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_i^{\dagger}\mathbf{u}_i \tag{1}
また(2.45) 式の両辺の複素共役をとり、右から\mathbf{u}_i をかける。(\mathbf{\Sigma u_i})^{\dagger}=\mathbf{u}_i^{\dagger}\mathbf{\Sigma}^{\dagger}=\mathbf{u}_i^{\dagger}\mathbf{\Sigma} 、 \bar{\lambda_i} を\lambda_i の複素共役として
(\mathbf{\Sigma u_i})^{\dagger}\mathbf{u}_i = (\lambda_i\mathbf{u}_i)^{\dagger}\mathbf{u}_i
\mathbf{u}_i^{\dagger}\mathbf{\Sigma}\mathbf{u}_i = \bar{\lambda_i}\mathbf{u}_i^{\dagger}\mathbf{u}_i \tag{2}
よって(1)(2)式の差を取ると
0 = (\lambda_i - \bar{\lambda_i})\mathbf{u_i}^{\dagger}\mathbf{u_i}
となる。\mathbf{u_i}^{\dagger}\mathbf{u_i} は0 ではないため、\lambda_i = \bar{\lambda_i} 、つまり\lambda_i が実数となることが示された。
② 異なる固有値に対応する固有ベクトル同士は直交する。
次に(2.45) 式の左側から\mathbf{u_j}^{\mathrm{T}} をかける
\mathbf{u}_j^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i = \mathbf{u}_j^{\mathrm{T}}\lambda_i\mathbf{u}_i
\mathbf{u}_j^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i = \lambda_i\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i
\begin{aligned}
\lambda_i\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i &= \mathbf{u}_j^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i \\
&= (\mathbf{\Sigma}\mathbf{u}_j)^{\mathrm{T}}\mathbf{u}_i \\
&= (\lambda_j\mathbf{u}_j)^{\mathrm{T}}\mathbf{u}_i \\
&= \lambda_j\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i
\end{aligned}
ここで\lambda_i \neq \lambda_j であれば上式から\mathbf{u}_j^{\mathrm{T}}\mathbf{u}_i=0 となるので、\mathbf{u}_i ,\mathbf{u}_j が直交していることが示された。この固有ベクトルは定数倍して\mathbf{u}_i \to \mathbf{u}_i/||\mathbf{u}_i|| というように正規化すれば(2.46) 式を満足させることができる。
(※統計のための行列代数下巻 P.238 定理21.4.5と同じ)
ちなみに、同じ固有値\lambda(\neq0) に対する2個の固有ベクトル\mathbf{u}_i, \mathbf{u}_j が存在したとき、この線型結合a_i\mathbf{u}_i+a_j\mathbf{u}_j について
\mathbf{\Sigma}(a_i\mathbf{u}_i+a_j\mathbf{u}_j) = \lambda(a_i\mathbf{u}_i+a_j\mathbf{u}_j)
と書くことができ、a_i\mathbf{u}_i+a_j\mathbf{u}_j も同じ固有値に対する固有ベクトルとして表現できる。これが得られる場合、例えばグラム・シュミットの直交化法を使うことで(2.46) 式である\mathbf{u}_k^{\mathrm{T}}\mathbf{u}_l = I_{kl} となるような正規直交された\mathbf{u}_k , \mathbf{u}_l を\mathbf{u}_i, \mathbf{u}_j の組から得ることが可能であることが知られている。以上から、同じ固有値\lambda_i=\lambda_j(\neq 0) の場合でも(2.46) 式を満足させられる固有ベクトルを得ることは可能である。
③ いくつかの固有値が0であっても、正規直交となるように固有ベクトル集合を選ぶことができる。
最後に、もしいくつかの\lambda_i が0 だった場合、正則行列についての定理から\mathbf{\Sigma} は正則行列ではなく、逆行列を持たない特異行列となる。このとき、\mathbf{\Sigma}\mathbf{u}_i=\mathbf{0} となる零ベクトルではない固有ベクトル\mathbf{u}_i が存在することになり、これは\mathbf{\Sigma} の零空間(核)をなす。さらに、同じ固有値0となる別の固有ベクトル\mathbf{u}_j がある場合でも、上記のグラム・シュミット直交化法によって(2.46) 式を満足させられる固有ベクトルを得ることが可能である。
演習 2.19
固有ベクトルの方程式について
\mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_i \tag{2.45} が成立する実対称行列
\mathbf{\Sigma} は,固有値を係数とする固有ベクトルで展開した,
\mathbf{\Sigma}=\sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \tag{2.48} の形で表せることを示せ.同様に,逆行列
\mathbf{\Sigma}^{-1} は
\mathbf{\Sigma}^{-1}=\sum_{i=1}^{D} \frac{1}{\lambda_{i}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \tag{2.49}
の形で表現できることを示せ.
※ (2.45) と(2.48) を行列形式で表すと変形が簡単になる。このとき、固有値\lambda_i を対角行列\mathbf{\Lambda} で書くとわかりやすい。
まず\mathbf{\Lambda} を\displaystyle \mathbf{\Lambda} = \left(\begin{array}{cccc}\lambda_{1} & & & 0 \\ & \lambda_{2} & & \\ & & \ddots & \\ 0 & & & \lambda_{D}\end{array}\right) となるような固有値からなる対角行列であるとする。さらに、\mathbf{U} をその列がD 個の固有ベクトルからなる行列であるとする(つまり\mathbf{U} = (\mathbf{u}_{1}, \mathbf{u}_{2}, \cdots, \mathbf{u}_{D}) )。\mathbf{\Lambda}, \mathbf{U} はともにD \times D の行列である。
これにより(2.45) は行列形式で\mathbf{\Sigma}\mathbf{U} = \mathbf{U}\mathbf{\Lambda} と表せ(付録C.38などを参照)、(2.48) は\mathbf{\Sigma} = \mathbf{U}\mathbf{\Lambda}\mathbf{U}^{\mathrm{T}} で表せる(……ということはちょっと計算してみないとわかりにくいかもしれない)。
よって、\mathbf{\Sigma}\mathbf{U} = \mathbf{U}\mathbf{\Lambda} の左から\mathbf{U}^{\mathrm{T}} を掛けると
\begin{aligned}
\mathbf{U}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{U} &= \mathbf{U}^{\mathrm{T}}\mathbf{U}\mathbf{\Lambda} \\
&= \mathbf{\Lambda} \ (\because \mathbf{U}\mathbf{U}^{\mathrm{T}}=\mathbf{U}\mathbf{U}^{\mathrm{T}}=1 )\\
\end{aligned}
となる。一方、この式から\mathbf{\Sigma} = \mathbf{U}\mathbf{\Lambda}\mathbf{U}^{\mathrm{T}} と表せることも分かり、(2.48) の行列形式が得られることが示された。
また、\mathbf{U}^{\mathrm{T}} = \mathbf{U}^{-1} であることを利用すれば
\begin{aligned}
\mathbf{\Sigma}^{-1} &= (\mathbf{U}\mathbf{\Lambda}\mathbf{U}^{\mathrm{T}})^{-1} \\
&= (\mathbf{U}^{\mathrm{T}})^{-1}\mathbf{\Lambda}^{-1}\mathbf{U}^{-1} \\
&= \mathbf{U}\mathbf{\Lambda}^{-1}\mathbf{U}^{\mathrm{T}}
\end{aligned}
となる。ここで\mathbf{\Lambda}\mathbf{\Lambda}^{-1} = \mathbf{I} より、\mathbf{\Lambda}^{-1} は対角成分が\frac{1}{\lambda_i} となる対角成分であることは容易にわかるので、
\mathbf{\Sigma}^{-1} = \sum_{i=1}^{D}\frac{1}{\lambda_i}\mathbf{u}_i\mathbf{u}_i^{\mathrm{T}}
となり、(2.49) 式が得られることが示された。
※ \mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_i ならば\mathbf{\Sigma} \mathbf{U}=\mathbf{U\Lambda} であることは
\begin{aligned}
\mathbf{\Sigma} \mathbf{U} &= \mathbf{\Sigma}\left(\mathbf{u}_{1}, \mathbf{u}_{2}, \cdots, \mathbf{u}_{D}\right)=\left(\mathbf{\Sigma} \mathbf{u}_{1}, \mathbf{\Sigma} \mathbf{u}_{2}, \cdots \mathbf{\Sigma} \mathbf{u}_{D}\right) \\
\mathbf{U} \mathbf{\Lambda} &=\left(\mathbf{u}_{1}, \mathbf{u}_{2}, \cdots, \mathbf{u}_{D}\right) \begin{pmatrix}\lambda_{1} & & & 0 \\ & \lambda_{2} & & \\ & & \ddots & \\ 0 & & & \lambda_{D}\end{pmatrix}=\left(\lambda \mathbf{u}_{1}, \lambda \mathbf{u}_{2}, \cdots, \lambda \mathbf{u}_{D}\right)
\end{aligned}
から確かめられる。
演習 2.20
正定値行列\mathbf{\Sigma} は次の二次形式が,任意の実ベクトル\mathbf{a} について正になるということで定義できる.
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} \tag{2.285}
\mathbf{\Sigma} が正定値になる必要十分条件は,(2.45) で定義される\mathbf{\Sigma} のすべての固有値\lambda_i が正となることであることを示せ.
※ 行列の定値性と固有値の間の有名な関係を示す問題です。Wikipedia にも書かれています。
問題文より、「\mathbf{\Sigma} が正定値行列である」ことの定義は、(2.285) のように任意の零ベクトルでない実ベクトル
\mathbf{a} について\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}>0 が成立することである。
【解法1】 参考:統計のための行列代数下巻 定理21.8.4の証明
(2.45) 式から\mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_i とする。\lambda_i は固有値である。
(2.45) 式の両辺に左から\mathbf{u}_i^{\mathrm{T}} をかけると
\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i
\lambda_i = \frac{\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i}{\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i} \tag{1}
ここで、\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i,\ \mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i はともにスカラーである。一方で、\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i は実ベクトルの自身の2乗なので常に\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i>0 となる(※特にこの問題設定では\mathbf{u}_i は直交行列なので\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i=1 となる)。
よって、もし任意のi について\lambda_{i}>0 ならば(1) 式から\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i>0 となる。すなわち、\mathbf{\Sigma} が正定値行列となる。反対に、もし\mathbf{\Sigma} が正定値行列ならば任意のi について\mathbf{u}_i^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}_i>0 となるので、すべての固有値\lambda_i が正となる。
以上から題意は示された。
【解法2】 PRML公式解答例による方法
\mathbf{u}_{1}, \mathbf{u}_{2}, \ldots, \mathbf{u}_{D} は\mathbb{R}^D の基底を張るので任意のベクトル\mathbf{a} は係数a_1, \ldots, a_D を使って
\mathbf{a}=a_{1} \mathbf{u}_{1}+a_{2} \mathbf{u}_{2}+\ldots+a_{D} \mathbf{u}_{D}
と書くことができる。これより、
\begin{aligned}
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}
&= (a_{1} \mathbf{u}_{1}^{\mathrm{T}}+a_{2} \mathbf{u}_{2}^{\mathrm{T}}+\ldots+a_{D} \mathbf{u}_{D}^{\mathrm{T}})\mathbf{\Sigma}(a_{1} \mathbf{u}_{1}+a_{2} \mathbf{u}_{2}+\ldots+a_{D} \mathbf{u}_{D}) \\
&= \left(a_{1} \mathbf{u}_{1}^{\mathrm{T}}+\ldots+a_{D} \mathbf{u}_{D}^{\mathrm{T}}\right)\left(a_{1} \lambda_{1} \mathbf{u}_{1}+\ldots+a_{D} \lambda_{D} \mathbf{u}_{D}\right)\hspace{2em}(\because (2.45))
\end{aligned}
となる。今、i=j ならば\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_j=1 でそれ以外のとき\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_j=0 であることを利用すれば、
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} = a_{1}^{2} \lambda_{1}+\ldots+a_{D}^{2} \lambda_{D}
が得られる。よって、もしすべての固有値が正ならば(\lambda_i>0 )\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}>0 となるため、\mathbf{\Sigma} が正定値行列であることがわかる。
反対に\mathbf{\Sigma} が正定値行列であるならばすべての固有値が正となることを示す。このために対偶「ある1つの固有値が0以下でならば、\mathbf{\Sigma} は正定置行列ではない」ことを示す。
もしある\lambda_i について\lambda_i \le 0 となるようなものが存在した場合、\mathbf{a} = \mathbf{u}_i とすれば\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} = \lambda_i\mathbf{u}_i^{\mathrm{T}}\mathbf{u}_i \le 0 となり、\mathbf{\Sigma} は正定置行列ではないことが示される。よって対偶を取ると「\mathbf{\Sigma} が正定値行列であるならばすべての固有値が正となる」が示される。
以上から必要十分条件が示された。
Discussion