世界一わかりやすい条件付きガウス分布の導出です。
条件付きガウス分布
以下, ベクトルは縦ベクトルです。
多変数確率変数\bm Xが多変量正規分布に従っているとします。
p(\bm X) = \dfrac{1}{(2\pi)^{\frac{N}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}(\bm X - \bm \mu)^\top\Sigma^{-1}(\bm X - \bm \mu)\right)
\quad
\bm Xの分割\bm X_1, \bm X_2を以下のように取り, p(\bm X_1\mid\bm X_2)について考えます。
\bm X = [X_1, X_2, \cdots, X_N]\\
\quad \\
\bm X_1 = [X_1, X_2, \cdots, X_n],\quad\bm X_2 = [X_{n+1}, X_{n+2}, \cdots, X_N]
\quad
以下のように文字を置きます。それぞれは平均や分散や共分散です。
\bm \mu = [\bm \mu_1, \bm \mu_2],\quad
\Sigma = \begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{bmatrix}
\quad
\quad
以下, 式変形を追っていきます。
- (1)は定義です。(2)はただの式変形です。
- 最後の式の形になるように天下り的に変形していきます。最後の式の\timesの前の部分が条件付き正規分布になります。
- (7)はただの式変形, (6)は\bm{\tilde{\mu_1}}, \Piを使って見やすくしているだけです。定義は式変形の最後に書いてあります。
- (5)はただの式変形です。頑張って行列の積を計算してください。
- 以上から, (3), (4)がわかれば終了です。
- (3)はブロック行列の逆行列を計算しています。ブロック行列の逆行列については下の補足にまとめてあります。
- (4)は逆行列補題を用いて(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}の部分を(\Sigma_{11}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21})^{-1}を使って表しています。なぜこのような変形をしたのかというと, 最終的に求める条件付き分布の分散は前者ではなく後者だからです。逆行列補題についても下の補足にまとめてあります。
\begin{aligned}
p(\bm X_1, \bm X_2) &\overset{(1)}{=} \dfrac{1}{(2\pi)^{\frac{N}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}(\bm X - \bm \mu)^\top\Sigma^{-1}(\bm X - \bm \mu)\right)\\
&\overset{(2)}{=} \dfrac{1}{(2\pi)^{\frac{N}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\dfrac{1}{2}(\bm X_1-\bm \mu_1, \bm X_2-\bm \mu_2)^\top\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{bmatrix}^{-1}(\bm X_1-\bm \mu_1, \bm X_2-\bm \mu_2)\right\}\\
&\overset{(3)}{=} \dfrac{1}{(2\pi)^{\frac{N}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\dfrac{1}{2}(\bm X_1-\bm \mu_1, \bm X_2-\bm \mu_2)^\top\begin{bmatrix}
\Sigma_{11}^{-1}+\Sigma_{11}^{-1} \Sigma_{12} (\Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12})^{-1} \Sigma_{21} \Sigma_{11}^{-1} & -\Sigma_{11}^{-1} \Sigma_{12} (\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1} \\
-(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1} \Sigma_{21} \Sigma_{11}^{-1} & (\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1} \\
\end{bmatrix}(\bm X_1-\bm \mu_1, \bm X_2-\bm \mu_2)\right\}\\
&\overset{(4)}{=} \dfrac{1}{(2\pi)^{\frac{N}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\dfrac{1}{2}(\bm X_1-\bm \mu_1, \bm X_2-\bm \mu_2)^\top\begin{bmatrix}
(\Sigma_{11}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21})^{-1} & -\Sigma_{11}^{-1} \Sigma_{12} \{\Sigma_{22}^{-1}+\Sigma_{22}^{-1} \Sigma_{21}\left(\Sigma_{11}^{-1}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}\right)^{-1} \Sigma_{12} \Sigma_{22}^{-1}\} \\
-\{\Sigma_{22}^{-1}+\Sigma_{22}^{-1} \Sigma_{21}\left(\Sigma_{11}^{-1}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}\right)^{-1} \Sigma_{12} \Sigma_{22}^{-1}\} \Sigma_{21} \Sigma_{11}^{-1} & \Sigma_{22}^{-1}+\Sigma_{22}^{-1} \Sigma_{21}\left(\Sigma_{11}^{-1}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}\right)^{-1} \Sigma_{12} \Sigma_{22}^{-1} \\
\end{bmatrix}(\bm X_1-\bm \mu_1, \bm X_2-\bm \mu_2)\right\}\\
&\overset{(5)}{=} \dfrac{1}{(2\pi)^{\frac{n}{2}}|\Pi|^{\frac{1}{2}}}\dfrac{1}{(2\pi)^{\frac{N-n}{2}}|\Sigma_{22}|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}\left\{(\bm X_1 - \left\{\bm \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\bm X_2 - \bm \mu_2)\right\})^\top{(\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})}^{-1}(\bm X_1 - \left\{\bm \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\bm X_2 - \bm \mu_2)\right\})+(\bm X_2 - \bm \mu_2)^\top\Sigma_{22}^{-1}(\bm X_2 - \bm \mu_2)\right\}\right)\\
&\overset{(6)}{=} \dfrac{1}{(2\pi)^{\frac{n}{2}}|\Pi|^{\frac{1}{2}}}\dfrac{1}{(2\pi)^{\frac{N-n}{2}}|\Sigma_{22}|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}\left\{(\bm X_1 - \bm{\tilde{\mu_1}})^\top\Pi^{-1}(\bm X_1 - \bm{\tilde{\mu_1}})+(\bm X_2 - \bm \mu_2)^\top\Sigma_{22}^{-1}(\bm X_2 - \bm \mu_2)\right\}\right)\\
&\overset{(7)}{=} \dfrac{1}{(2\pi)^{\frac{n}{2}}|\Pi|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}(\bm X_1 - \bm{\tilde{\mu_1}})^\top\Pi^{-1}(\bm X_1 - \bm{\tilde{\mu_1}})\right)\times \dfrac{1}{(2\pi)^{\frac{N-n}{2}}|\Sigma_{22}|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}(\bm X_2 - \bm \mu_2)^\top\Sigma_{22}^{-1}(\bm X_2 - \bm \mu_2)\right)
\end{aligned}
\bm{\tilde{\mu_1}}=\bm \mu_1 + \Sigma_{11}\Sigma_{22}^{-1}(\bm X_2 - \bm \mu_2),\quad \Pi = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}
\quad
\quad
あとは, 条件付き確率の定義通りに計算すれば
\begin{aligned}
p(\bm X_1\mid\bm X_2)&=\dfrac{p(\bm X_1, \bm X_2)}{p(\bm X_2)}\\
&=\dfrac{1}{(2\pi)^{\frac{n}{2}}|\Pi|^{\frac{1}{2}}}\exp\left(-\dfrac{1}{2}(\bm X_1 - \bm{\tilde{\mu_1}})^\top\Pi^{-1}(\bm X_1 - \bm{\tilde{\mu_1}})\right)
\end{aligned}
補題1: ブロック行列の逆行列
まず以下の式が成り立つことが右辺を計算すればわかります。第1項, 第2項, 第3項それぞれの逆行列は簡単に計算できるのでこのように変形しています。
\begin{aligned}
\left(\begin{array}{cc}
A & B \\
C & D
\end{array}\right) &= \left(\begin{array}{cc}
I & O \\
C A^{-1} & I
\end{array}\right)\left(\begin{array}{cc}
A & O \\
O & D-C A^{-1} B
\end{array}\right)\left(\begin{array}{cc}
I & A^{-1} B \\
O & I
\end{array}\right)
\end{aligned}
- (1)では(XYZ)^{-1}=Z^{-1}Y^{-1}X^{-1}を上の式に用いています。
- (2)では各項の逆行列を計算しています。
- (3)では行列の積を計算しています。
\begin{aligned}
\left(\begin{array}{cc}
A & B \\
C & D
\end{array}\right)^{-1} & \overset{(1)}{=}\left(\begin{array}{cc}
I & A^{-1} B \\
O & I
\end{array}\right)^{-1}\left(\begin{array}{cc}
A & O \\
O & D-C A^{-1} B
\end{array}\right)^{-1}\left(\begin{array}{cc}
I & O \\
C A^{-1} & I
\end{array}\right)^{-1} \\
& \overset{(2)}{=}\left(\begin{array}{cc}
I & -A^{-1} B \\
O & I
\end{array}\right)\left(\begin{array}{cc}
A^{-1} & O \\
O & D-C A^{-1} B^{-1}
\end{array}\right)\left(\begin{array}{cc}
I & O \\
-C A^{-1} & I
\end{array}\right) \\
& \overset{(3)}{=}\left(\begin{array}{cc}
A^{-1}+A^{-1} B (D-C A^{-1} B)^{-1} C A^{-1} & -A^{-1} B (D-C A^{-1} B)^{-1} \\
-(D-C A^{-1} B)^{-1} C A^{-1} & (D-C A^{-1} B)^{-1}
\end{array}\right)
\end{aligned}
条件付きガウス分布の計算では次の形を用いています。
\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{bmatrix}^{-1}=\begin{bmatrix}
\Sigma_{11}^{-1}+\Sigma_{11}^{-1} \Sigma_{12} (\Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12})^{-1} \Sigma_{21} \Sigma_{11}^{-1} & -\Sigma_{11}^{-1} \Sigma_{12} (\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1} \\
-(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1} \Sigma_{21} \Sigma_{11}^{-1} & (\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1} \\
\end{bmatrix}
補題2: 逆行列補題
以下の等式が成り立ちます。右辺に左・右どちらから(A-B D^{-1} C)を掛けても単位行列になることを確かめれば示せます。
(A-B D^{-1} C)^{-1} = A^{-1}+A^{-1} B (D-C A^{-1} B)^{-1} C A^{-1}
条件付きガウス分布の計算では次の形を用いています。
(\Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12})^{-1} = \Sigma_{22}^{-1}+\Sigma_{22}^{-1} \Sigma_{21}\left(\Sigma_{11}^{-1}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}\right)^{-1} \Sigma_{12} \Sigma_{22}^{-1}
Discussion