ディリクレ分布
ディリクレ分布の密度関数
パラメータを \bm{\alpha}=(\alpha_1,...,\alpha_n) , 確率変数を \bm x = (x_1,...,x_n)とするとき
f(\bm x ; \bm \alpha)=\frac{\Gamma({\sum_{i=1}^n}\alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)}\prod_{i=1}^nx_i^{\alpha_i-1} \hspace{5pt},\hspace{5pt} x_i≥0 \hspace{5pt},\hspace{5pt}\sum_{i=1}^nx_i=1
期待値
E[X_i] = \frac{\alpha_i}{\sum_{i=1}^n\alpha_i} \tag{1}
分散
Var[X_i] = \frac{\alpha_i(\sum_{i=1}^n\alpha_i-\alpha_i)}{(\sum_{i=1}^n \alpha_i+1)(\sum_{i=1}^n \alpha_i)^2} \tag{2}
共分散
Cov[X_i,X_j] = -\frac{\alpha_i\alpha_j}{(\sum_{i=1}^n \alpha_i)^2(\sum_{i=1}^n \alpha_i+1)} \tag{3}
証明
1. 期待値を求める
\begin{align*}
E[X_1] &= \int_0^{\infty} \cdots \int_0^{\infty} x_1 f(x_1,...,x_{n-1}) dx_1 \cdots dx_{n-1}\\
&= \frac{\Gamma(\sum \alpha_i)}{\prod \Gamma(\alpha_i)} \int_0^{\infty} \cdots \int_0^{\infty}x_1 x_1^{\alpha_1-1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}\\
&=\frac{\Gamma(\sum \alpha_i)}{\prod \Gamma(\alpha_i)} \int_0^{\infty} \cdots \int_0^{\infty} x_1^{\alpha_1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}
\end{align*}
ガンマ関数の積分公式(この公式の証明は一番下)より
\int_0^{\infty} \cdots \int_0^{\infty}x_1^{\alpha_1-1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1} = \frac{\prod_{i=1}^n\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^n\alpha_i)}
ガンマ関数の性質 \Gamma(\alpha+1)=\alpha\Gamma(\alpha)より
\begin{align*}
\int_0^{\infty} \cdots \int_0^{\infty} x_1^{\alpha_1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}
&= \frac{\Gamma(\alpha_1+1)\prod_{i=2}^n\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^n \alpha_i +1)}\\
&= \frac{\alpha_1\prod_{i=1}^n\Gamma(\alpha_i)}{(\sum_{i=1}^n \alpha_i)\Gamma(\sum_{i=1}^n \alpha_i)}\\
\end{align*}
したがって、
E[X_1] = \frac{\alpha_1}{\sum_{i=1}^n\alpha_i}
全般的に、
E[X_i] = \frac{\alpha_i}{\sum_{i=1}^n\alpha_i} \tag{1}
2. 分散を求める
\begin{align*}
E[X_1^2] &= \int_0^{\infty} \cdots \int_0^{\infty} x_1^2 f(x_1,...,x_{n-1}) dx_1 \cdots dx_{n-1}\\
&= \frac{\Gamma(\sum \alpha_i)}{\prod \Gamma(\alpha_i)} \int_0^{\infty} \cdots \int_0^{\infty}x_1^2 x_1^{\alpha_1-1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}\\
&=\frac{\Gamma(\sum \alpha_i)}{\prod \Gamma(\alpha_i)} \int_0^{\infty} \cdots \int_0^{\infty} x_1^{\alpha_1+1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}
\end{align*}
したがって、
Var[X_1] = \frac{\alpha_1(\sum_{i=1}^n\alpha_i-\alpha_1)}{(\sum_{i=1}^n \alpha_i+1)(\sum_{i=1}^n \alpha_i)^2}
一般的に、
Var[X_i] = \frac{\alpha_i(\sum_{i=1}^n\alpha_i-\alpha_i)}{(\sum_{i=1}^n \alpha_i+1)(\sum_{i=1}^n \alpha_i)^2} \tag{2}
3. 共分散を求める
\begin{align*}
E[X_1X_2] &= \int_0^{\infty} \cdots \int_0^{\infty} x_1x_2 f(x_1,...,x_{n-1}) dx_1 \cdots dx_{n-1}\\
&= \frac{\Gamma(\sum \alpha_i)}{\prod \Gamma(\alpha_i)} \int_0^{\infty} \cdots \int_0^{\infty}x_1x_2 x_1^{\alpha_1-1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}\\
&=\frac{\Gamma(\sum \alpha_i)}{\prod \Gamma(\alpha_i)} \int_0^{\infty} \cdots \int_0^{\infty} x_1^{\alpha_1}x_2^{\alpha_2}x_3^{\alpha_3-1}\cdots
x_n^{\alpha_n-1}dx_1 \cdots dx_{n-1}
\end{align*}
したがって、
Cov[X_1,X_2] = -\frac{\alpha_1\alpha_2}{(\sum_{i=1}^n \alpha_i)^2(\sum_{i=1}^n \alpha_i+1)}
一般的に、
Cov[X_i,X_j] = -\frac{\alpha_i\alpha_j}{(\sum_{i=1}^n \alpha_i)^2(\sum_{i=1}^n \alpha_i+1)} \tag{3}
まとめ
ベイジアンブートストラップを理解するのに必要となるディリクレ分布の期待値と分散を導出しました。ガンマ関数が出てきてかなりややこしかったですね。でも綺麗にまとまって気持ちい。
ガンマ関数の積分公式の証明はこちらをみてください。
https://zenn.dev/totopironote/articles/7e154092f356e6
Discussion