多項分布(Multinomial distribution)
ベルヌーイ試行を一般化した、結果(事象)がk(\ge2)通りでそれぞれの結果が出る確率が一定(p_1,p_2,\cdots,p_k)の独立な試行を考える。
この試行をn回繰り返したときに各事象がそれぞれn_1,n_2,\cdots,n_k回発生する確率が従う分布。
各事象が起こる回数をX_1,\cdots,X_kとすると、(X_1,\cdots,X_k)~M(n;p_1,\cdots,p_k)と表す。
1.同時確率関数
1回の試行で起こりうる事象がk通りで、それぞれが起こる確率をp_1,p_2,\cdots,p_kとすると、多項分布の同時確率関数は
\begin{align*}&P(X_1=n_1,X_2=n_2,\cdots,X_k=n_k)\\&=\frac{n!}{n_1!n_2!\cdots n_k!}p_1^{n_1}p_2^{n_2}\cdots p_k^{n_k}\\&(\Sigma_{i=1}^kp_i=1,\Sigma_{i=1}^kn_i=n)\end{align*}
同時確率関数の和が1になる証明
すべてのn_1,\cdots,n_kの取りうる値の組み合わせについての同時確率関数が1になることの証明
\begin{align*}&\Sigma_{n_1+\cdots+n_k=n}\frac{n!}{n_1!n_2!\cdots n_k!}p_1^{n_1}p_2^{n_2}\cdots p_k^{n_k}\\&=(p_1+\cdots+p_k)^n\quad(∵多項定理)\\&=1^n=1\end{align*}
2.周辺分布
(X_1,\cdots,X_k)~M(n;p_1,\cdots,p_k)のとき、X_iの周辺分布は二項分布Bin(n,p_i)に従う。
(X_1,\cdots,X_k)~M(n;p_1,\cdots,p_k)のときX_1の周辺分布を考える。
\begin{align*}&P(X=n_1)=\Sigma_{n_2+\cdots+n_k=n-n_1}\frac{n!}{n_1!n_2!\cdots n_k!}p_1^{n_1}p_2^{n_2}\cdots p_k^{n_k}\\&=\frac{n!}{n_1!(n-n_1)!}p_1^{n_1}\Sigma_{n_2+\cdots+n_k=n-n_1}\frac{(n-n_1)!}{n_2!\cdots n_k!}p_2^{n_2}\cdots p_k^{n_k}\\&=\frac{n!}{n_1!(n-n_1)!}p_1^{n_1}(p_2+\cdots+p_k)^(n-n_1)\\&=\frac{n!}{n_1!(n-n_1)!}p_1^{n_1}(1-p_1)^(n-n_1)\end{align*}
よって
X_1は二項分布
Bin(n,p_1)に従う。
一般化すると、
(X_1,\cdots,X_k)~
M(n;p_1,\cdots,p_k)のとき、
X_iの周辺分布は二項分布
Bin(n,p_i)に従う。
3. 2変数の相関
X_1とX_2の相関を考える。
共分散を算出する準備として、まずはX_1X_2の期待値を求める。
E[X_1X_2]=\Sigma_{n_1+n_2+\cdots+x_k=n}n_1n_2\frac{n!}{n_1!n_2!\cdots n_k!}p_1^{n_1}p_2^{n_2}\cdots p_k^{n_k}
n_1=0または
n_2=0のとき、その項は0になるので
n_1と
n_2は自然数と考えて良い。
\begin{align*}&=\Sigma_{n_1+\cdots+n_k=n}\frac{n!}{(n_1-1)!(n_2-1)!\cdots n_k!}p_1^{n_1}p_2^{n_2}\cdots p_k^{n_k}\\&=n(n-1)p_1p_2\Sigma_{n_1+\cdots+n_k=n}\frac{(n-2)!}{(n_1-1)!(n_2-1!)\cdots n_k!}p_1^{(n_1-1)}p_2^{(n_2-1)}\cdots p_k^{n_k}\end{align*}
ここで
n_1-1=m_1,n_2-1=m_2,n_3=m_3,\cdots n_k=m_kと置く。
\begin{align*}&=n(n-1)p_1p_2\Sigma_{m_1+m_2+\cdots+m_k=n-2}\frac{(n-2)!}{m_1!m_2!\cdots m_k!}p_1^{m_1}p_2^{m_2}\cdots p_k^{m_k}\\&=n(n-1)p_1p_2(p_1+p_2+\cdots+p_k)^{(n-2)}\\&=n(n-1)p_1p_2\quad\cdots(1)\end{align*}
共分散
Cov[X_1,X_2]は
\begin{align*}&Cov[X_1,X_2]=E[(X_1-E[X_1])(X_2-E[X_2])]\\&=E[X_1X_2-E[X_1]X_2-X_1E[X_2]+E[X_1]E[X_2]]\\&=E[X_1X_2]-2E[X_1][X_2]+E[X_1][X_2]\\&=E[X_1X_2]-E[X_1]E[X_2]\end{align*}
ここで
X_1~
Bin(n,p_1),
X_2~
Bin(n,p_2)より、
E[X_1]=np_1,
E[X_2]=np_2。また、
(1)より
\begin{align*}&=n(n-1)p_1p_2-n^2p_1p_2\\&=-np_1p_2\quad\cdots(2)\end{align*}
相関係数
\rho(X_1,X_2)を求める。
\rho(X_1,X_2)=\frac{Cov[X_1,X_2]}{\sqrt{V[X_1]}\sqrt{V[X_2]}}
ここで
X_1~
Bin(n,p_1),
X_2~
Bin(n,p_2)より、
V[X_1]=np_1(1-p_1),
V[X_2]=np_2(1-p_2)。
また、
(2)より、
\begin{align*}&=\frac{-np_1p_2}{\sqrt{np_1(1-p_1)}\sqrt{np_2(1-p_2)}}\\&=-\frac{\sqrt{p_1p_2}}{\sqrt{(1-p_1)(1-p_2)}}\end{align*}
相関係数は
nに依存しない。
Discussion