概要
ベイズ更新とは
P(\theta \mid D) = \frac{P(D \mid \theta) \cdot P(\theta)}{P(D)}
という計算式に従って、事後分布を繰り返し更新することで、有用な確率分布を得る手法のことである。
ベイズ更新の式については以下の記事でも解説している。
https://zenn.dev/zurukumo/articles/c9d81fdd38d895
ベイズ更新では事後分布を繰り返し更新するが、その際に前回のベイズ更新で求めた事後分布を今回のベイズ更新の事前分布として利用することができる。たとえば、ある事実D_1とD_2が立て続けに観測されたという状況を考える。
まずD_1が観測された瞬間のベイズ更新の式は以下のようになる。
P(\theta \mid D_1) = \frac{P(D_1 \mid \theta) \cdot P(\theta)}{P(D_1)}
ここで求めた事後分布P(\theta \mid D_1)は次回のベイズ更新時の事前分布として利用することができる。したがって、D_1に引き続いてD_2が観測されたときの事後分布は以下のベイズ更新の式で求められる。
P(\theta \mid D_1 \cap D_2) = \frac{P(D_2 \mid \theta) \cdot P(D_1 \mid \theta)}{P(D_2)}
ベイズ更新についてネットを調べると、上記の性質が成り立つことが当たり前のように書かれているが、冷静に考えるとかなり不思議な性質に思える。この記事では、なぜベイズ更新では前回の事後分布を今回の事前分布として利用できるのかについて考える。
証明
1. D_1が観測されたときの事後分布を求める
ベイズの定理より
P(\theta \cap D_1) = P(\theta \mid D_1) \cdot P(D_1) = P(D_1 \mid \theta) \cdot P(\theta)
が成り立つ。後半の等号の両辺をP(D_1)で割ると
P(\theta \mid D_1) = \frac{P(D_1 \mid \theta) \cdot P(\theta)}{P(D_1)}
という式を得られる。これはベイズ更新の式そのものである。
2. D_1とD_2が観測されたときの事後分布を求める
ベイズの定理より
P(\theta \cap D_1 \cap D_2) = P(\theta \mid D_1 \cap D_2) \cdot P(D_1 \cap D_2) = P(D_1 \cap D_2 \mid \theta) \cdot P(\theta)
が成り立つ。後半の等号の両辺をP(D_1 \cap D_2)で割ると
P(\theta \mid D_1 \cap D_2) = \frac{P(D_1 \cap D_2 \mid \theta) \cdot P(\theta)}{P(D_1 \cap D_2)}
という式を得られる。
ベイズ更新の前提として、D_1とD_2は独立しているので、
P(D_1 \cap D_2 \mid \theta) = P(D_1 \mid \theta) \cdot P(D_2 \mid \theta)
P(D_1 \cap D_2) = P(D_1) \cdot P(D_2)
の2式が成立する。この2式を上の式に代入すると、
\begin{aligned}
P(\theta \mid D_1 \cap D_2) &= \frac{P(D_1 \cap D_2 \mid \theta) \cdot P(\theta)}{P(D_1 \cap D_2)} \\
\\
&= \frac{P(D_1 \mid \theta) \cdot P(D_2 \mid \theta) \cdot P(\theta)}{P(D_1) \cdot P(D_2)} \\
\\
&= \frac{P(D_1 \mid \theta) \cdot P(\theta)}{P(D_1)} \cdot \frac{P(D_2 \mid \theta)}{P(D_2)}
\end{aligned}
証明1で
P(\theta \mid D_1) = \frac{P(D_1 \mid \theta) \cdot P(\theta)}{P(D_1)}
が成り立つことは証明したので、これを代入して、
P(\theta \mid D_1 \cap D_2) = \frac{P(D_2 \mid \theta) \cdot P(D_1 \mid \theta)}{P(D_2)}
これはベイズ更新の式の事前分布の項を前回のベイズ更新で求めた事後分布で置き換えた形と同一である。よって、前回のベイズ更新で求めた事後分布を今回のベイズ更新の事前分布として利用できることが証明された。
なお、今回は2回目のベイズ更新の事前分布に1回目のベイズ更新で求めた事後分布を利用できることを証明しただけなので、厳密には、より一般的にn回目のベイズ更新の事前分布にn-1回目のベイズ更新で求めた事後分布を利用できることを証明する必要がある。
Discussion