📊

統計検定準1級：離散型確率分布のまとめ

2024/04/23に公開

統計

概要

統計検定準1級を受験するにあたって，自身で大事だなと思うpointをまとめており，何個か作っているチートシートのうちの一つです．
今回は離散型確率分布の分野に関する記事です．

抑えておく基本事項

期待値

定義

確率変数 $X$ の期待値（あるいは平均値）は，以下のように定義される．

\begin{align} \mu = E[X] = \sum_x x p(x) \end{align}

期待値に関する公式

\begin{align} & E[aX + bY] = aE[X] + bE[y] \\ & E[X + a] = E[X] + a \\ & E[XY] = E[X]E[Y] \quad(XとYが無相関なら) \end{align}

(2)式は期待値の線形性と呼ばれる．
(4)式は $X$ と $Y$ が無相関なときにのみ成立する．

分散

定義

確率変数 $X$ の分散（variance）は，以下のように定義される．

\begin{align} \sigma^2 = V[X] = E[(X-\mu)^2] = \sum_x (x-\mu)^2p(x) \end{align}

分散に関する公式

\begin{align} & V[aX + b] = a^2V[x]\\ & V[X + Y] = V[X] + V[Y] \quad(XとYが無相関なら) \\ & V[X] = E[X^2] - E[X]^2 \end{align}

(6)式は期待値の場合は定数倍は単純に外に出せたが，分散は定義に $(x - \mu)^2$ と2乗の式になっているので外に出すときに2乗する必要がある．
(7)式は $X$ と $Y$ が無相関なときにのみ成立する．
(8)式は期待値から分散を計算する公式である．

(8)の証明

分散の定義を式変形することによって求める．

\begin{align*} V[X] &= \sum_x (x-\mu)^2p(x) \\ &= \sum_x (x^2 - 2x\mu + \mu^2) \times p(x) \\ &= \sum_x x^2 p(x) - 2\mu \sum_x x p(x) + \mu^2 \sum_x p(x) \\ &= E[X^2] -2E[X] \times E[X] + E[X]^2 \quad(\because \sum_x p(x) = 1)\\ &= E[X^2] - E[X]^2 \end{align*}

共分散

定義

確率変数 $X$ と確率変数 $Y$ の共分散（covariance）は，以下のように定義される．

\begin{align} & Cov(X, Y) = E[(X-\mu_x)(Y-\mu_y)] \end{align}

共分散に関する公式

\begin{align} & Cov(X, Y) = E[XY] - E[X]E[Y] \\ & V[X + Y] = V[X] + V[Y] + 2Cov(X, Y) \end{align}

\begin{equation} \begin{split} Cov(aX + bY, cW + dZ) = acCov(X, W) + adCov(X, Z) \\ + bcCov(Y, W) + bdCov(Y, Z) \end{split} \end{equation}

(10)式は期待値から共分散を計算する公式である．(10)式から(4)式は， $X$ と $Y$ が無相関なときに共分散 $Cov(X, Y)=0$ となると言い換えることができる．
(11)式は $(x+y)^2 = x^2 + y^2 + 2xy$ という恒等式に対応していることを意識すれば覚えやすい．(11)式から， $X$ と $Y$ が無相関なときに共分散 $Cov(X, Y)=0$ が成り立つので，(7)式が成り立つ.
(12)式は $(ax+by)(cw+dz) = acxw + + bcyw + bdyw$ という恒等式に対応していることを意識すれば覚えやすい．

(10)の証明

共分散の定義を式変形することによって求める．

\begin{align*} Cov(X, Y) &= E[(X-\mu_x)(Y-\mu_y)] \\ &= E[XY] -\mu_yE[X] - \mu_xE[Y] + \mu_x\mu_y \\ &= E[XY] -2E[X]E[Y] + E[X]E[Y] \\ &= E[XY] - E[X]E[Y] \end{align*}

(11)の証明

\begin{align*} V[X + Y] &= E[\{ (X+Y) - E[X+Y] \}^2] \\ &= E[(X + Y - E[X] - E[Y])^2] \quad(\because (2)式)\\ &= E[\{(X - E[X]) + (Y - E[Y])\}^2] \\ &= E[(X - E[X])^2 + (Y - E[Y])^2 + 2(X - E[X])(Y - E[Y])] \\ &= E[(X - E[X])^2] + E[(Y - E[Y])^2] + 2E[(X - E[X])(Y - E[Y])] \quad(\because (2)式)\\ &= V[X] + V[Y] + 2Cov(X, Y) \quad(\because (5)式と(9)式) \end{align*}

(12)の証明

\begin{align*} Cov(aX+bY, cW+dZ) &= E[(aX + bY)(cW + dZ)] - E[aX + bY]E[cW + dZ] \\ &= E[acXW + adXZ + bcYW + bdYZ] - (aE[X] + bE[Y])(cE[W] + dE[Z]) \quad(\because (2)式)\\ &= acE[XW] + adE[XZ] + bcE[YW] + bdE[YZ] - acE[X]E[W] - adE[X]E[Z] - bcE[Y]E[W] - bdE[Y]E[Z] \quad(\because (2)式)\\ &= ac(E[XW] - E[X]E[W]) + ad(E[XZ] - E[X]E[Z]) + bc(E[YW] - E[Y]E[W]) + bd(E[YZ] - E[Y]E[Z]) \\ &= acCov(X, W) + adCov(X, Z) + bcCov(Y, W) + bdCov(Y, Z) \quad(\because (12)式) \end{align*}

確率母関数

定義

確率母関数は，整数値をとる確率変数に主に用いられる．　整数値をとる確率変数 $X$ の確率関数を $p(x)$ とし， $s$ を任意の実数とするとき， $X$ の確率母関数は以下のように定義される．

G(s) = E[s^X] = \sum_x s^x p(x)

使い方

確率母関数 $G$ を微分すると， $G^\prime(s) = E[Xs^{X-1}]$ ， $G^{\prime\prime}(s) = E[X(X-1)s^{X-2}]$ であるが，ここで $s=1$ とおくと

\begin{align} & G^\prime(1) = E[X] \\ & G^{\prime\prime}(1) = E[X(X-1)] \end{align}

を得る．これより $X$ の期待値と分散が

\begin{align*} & E[X] = G^\prime(1) \\ & V[X] = E[X^2] - (E[X])^2 = E[X(X-1)] + E[X] - (E[X])^2 = G^{\prime\prime}(1) + G^\prime(1) - (G^\prime(1))^2 \end{align*}

のように表される事がわかる．

主な離散型確率分布

離散一様分布

確率変数 $X$ が $1,2, \dots ,K$ を等確率でとる，すなわち

P(X = 1) = P(X = 2) = \dots = P(X = K) = \frac{1}{K}

であるとする．

　期待値と分散は以下のようになる．

\begin{align} &E[X] = \frac{K + 1}{2} \\ &V[X] = \frac{K^2 - 1}{12} \end{align}

(15)の証明

期待値の定義より求める．

\begin{align*} E[X] &= \sum_x x p(x) \\ &= 1 \times \frac{1}{K} + \dots + K \times \frac{1}{K} \\ &= (1 + \dots+ K) \times \frac{1}{K} \\ &= \frac{K(K+1)}{2} \times \frac{1}{K} \quad(\because \sum_{k=1}^{n}k = \frac{n(n+1)}{2})\\ &= \frac{K+1}{2} \end{align*}

(16)の証明

$E[X^2]$ を求め，式(8)より求める．

\begin{align*} E[X^2] &= \sum_x x^2 p(x) \\ & = 1^2 \times \frac{1}{K} + \dots + K^2 \times \frac{1}{K} \\ & = (1^2 + \dots + K^2) \times \frac{1}{K} \\ &= \frac{K(K+1)(2K+1)}{6} \times \frac{1}{K} \quad(\because \sum_{k=1}^{n}k^2 = \frac{n(n+1)(2n+1)}{6})\\ &= \frac{(K+1)(2K+1)}{6} \\ \\ \therefore V[X] &= E[X^2] - (E[X])^2 \\ &= \frac{(K+1)(2K+1)}{6} - \Big(\frac{K+1}{2}\Big)^2 \\ &= \frac{(K+1)\{(2K+1) - (K+1)\}}{12} \\ &= \frac{K^2-1}{12} \end{align*}

　また，確率母関数は以下のようになる．

\begin{align} G(s) = \frac{s(s^K-1)}{K(s-1)} \end{align}

確率母関数を使った期待値の計算

$E[X] = G^\prime(1)$ を用いて期待値を求める．^[1]

\begin{align*} E[X] &= G^\prime(1) \\ &= \left. \Big( \frac{s(s^K-1)}{K(s-1)} \Big)^\prime \right|_{s=1} \\ &= \left. \frac{\{(K+1)s^K - 1)\}K(s-1) - s(s^K-1)K}{\{K(s-1)\}^2} \right|_{s=1} \\ &= \left. \frac{(Ks^K+s^K-1)(s-1) - s^{K+1} + s}{K(s-1)^2} \right|_{s=1} \\ &= \left. \frac{Ks^{K+1} - Ks^K - s^K + 1}{K(s-1)^2} \right|_{s=1} \end{align*}

ロピタルの定理を前述の式に適応させて計算すると，以下のように期待値が導ける．

\begin{align*} &= \lim_{s \to 1} \frac{Ks^{K+1} - Ks^K - s^K + 1}{K(s-1)^2} \quad(\because ロピタルの定理1回目)\\ &= \lim_{s \to 1} \frac{K(K+1)s^K - K^2s^{K-1} - Ks^{K-1}}{2K(s-1)} \\ &= \lim_{s \to 1} \frac{(K+1)s^K - Ks^{K-1} - s^{K-1}}{2(s-1)} \\ &= \lim_{s \to 1} \frac{(K+1)Ks^{K-1} - K(K-1)s^{K-2} - (K-1)s^{K-2}}{2} \quad(\because ロピタルの定理2回目)\\ &= \frac{(K+1)K - K(K-1) - (K-1)}{2} \\ &= \frac{K+1}{2} \end{align*}

(17)の証明

確率母関数の定義より求める．

\begin{align*} G(s) &= E[s^X] \\ &= \sum_x s^x p(x) \\ &= s^1 \times \frac{1}{K} + \dots + s^K \times \frac{1}{K} \\ &= (s^1 + \dots + s^K) \times \frac{1}{K} \\ &= \frac{s(s^K-1)}{s-1} \times \frac{1}{K} \quad(\because \sum_{k=1}^{n}k^k = \frac{k(k^n-1)}{k-1})\\ &= \frac{s(s^K-1)}{K(s-1)} \end{align*}

　さらに，離散型一様分布は再生性を持たない．

再生性を持たないことの証明

独立な二つの確率変数を考え，その和の確率母関数を計算したときに，確率母関数が同じ形になっていないことを示す．

\begin{align*} G_{X+Y}(s) &= E[s^{X+Y}] \\ &= E[s^Xs^Y] \\ &= E[s^X] \cdot E[s^Y] \quad(\because XとYは独立のため(4)式)\\ &= G_X(s) \cdot G_Y(s) \\ &= \frac{s(s^m-1)}{m(s-1)} \cdot \frac{s(s^n-1)}{n(s-1)} \\ &\neq \frac{s(s^{m+n}-1)}{(m+n)(s-1)} \end{align*}

ベルヌーイ分布

成功確率 $p$ のベルヌーイ試行^[2]に対し，確率変数 $X$ を，成功のとき $1$ ，失敗のとき $0$ をとる，として定義する． $X$ はベルヌーイ試行を1回行ったときの成功の回数を表すとも言える． $X$ の従う分布を，成功確率 $p$ のベルヌーイ分布といい， $Bin(1, p)$ と表す．

　 $Bin(1, p)$ の確率関数は， $q \coloneqq 1 - p$ を用いて

P(X=x) = p^x q^{1-x}, \quad x=0,1

と書ける．

　 $Bin(1, p)$ の期待値と分散は

\begin{align} &E[X] = p \\ &V[X] = pq \end{align}

となる．

(18)の証明

期待値の定義より求める．

\begin{align*} E[X] &= \sum_x x p(x) \\ &= 1 \times p + 0 \times q \\ &= p \end{align*}

(19)の証明

$E[X^2]$ を求め，式(8)より求める．

\begin{align*} E[X^2] &= \sum_x x^2 p(x) \\ &= 1^2 \times p + 0^2 \times q \\ &= p \quad(X=0,1のため，X^2 \equiv Xであることからもわかる)\\ \\ \therefore V[X] &= E[X^2] - (E[X])^2 \\ &= p - p^2 \\ &= p(1 - p) \\ &= pq \end{align*}

　また，確率母関数は以下のようになる．

\begin{align} G(s) = ps+q \end{align}

確率母関数を使った期待値と分散の計算

E[X] = G^\prime(1) を用いて期待値を求める.

\begin{align*}
    E[X] &= G^\prime(1) \\
    &= \left. (ps + q)^\prime \right|_{s=1} \\
    &= \left. p \right|_{s=1} \\
    &= p
\end{align*}
E[X(X-1)] = G^{\prime\prime}(1) を用いて分散を求める．

\begin{align*}
    E[X(X-1)] &= G^{\prime\prime}(1) \\
    &= \left. (ps + q)^{\prime\prime} \right|_{s=1} \\
    &= \left. 0 \right|_{s=1} \\
    &= 0
    \\
    \therefore V[X] &= E[X(X-1)] + E[X] - (E[X])^2 \\
    &= 0 + p - p^2 \\
    &= p(1 - p) \\
    &= pq
\end{align*}

(20)の証明

確率母関数の定義より求める．

\begin{align*} G(s) &= E[s^X] \\ &= \sum_x s^x p(x) \\ &= s^1 \times p + s^0 \times q \\ &= ps + q \end{align*}

　さらに，ベルヌーイ分布は再生性を持たない．

再生性を持たないことの証明

独立な二つの確率変数 $X, Y$ を考える． $X \sim Bin(1, p)$ , $Y \sim Bin(1, t)$ にそれぞれ従うとき， $X + Y$ の確率母関数を計算する．^[3]この時，確率母関数が同じ形になっていないことを示す．

\begin{align*} G_{X+Y}(s) &= E[s^{X+Y}] \\ &= E[s^Xs^Y] \\ &= E[s^X] \cdot E[s^Y] \quad(\because XとYは独立のため(4)式)\\ &= G_X(s) \cdot G_Y(s) \\ &= (ps+q)(ts+u) \\ &\neq (p+t)s+(q+u) \end{align*}

二項分布

成功確率 $p$ $(0 < p < 1)$ のベルヌーイ試行を $n$ 回行い， $i$ 回目 $(1 \le i \le n)$ のベルヌーイ試行に対応する確率変数を $X_i$ とする．和 $X_1 + \dots + X_n$ は， $n$ 回中の成功の回数を表す．ここでさらに， $X_1, \dots, X_n$ が独立なとき， $Y = X_1 + \dots + X_n$ の従う分布を，成功確率 $p$ の二項分布といい， $Bin(n, p)$ と表す．つまり，「独立なベルヌーイ試行（成功確率 $p$ ）を $n$ 回行ったときの成功回数 $Y$ の分布」が二項分布 $Bin(n, p)$ である．

　二項分布 $Bin(n, p)$ の確率関数は， $q = 1 - p$ を用いて

\begin{align} P(Y = y) = {}_n \mathrm{C}_y p^y q^{n-y}, \quad y = 0,1, \dots ,n \end{align}

となる．これは，与えられた $y$ $(0 \le y \le n)$ に対し， $n$ 回の独立なベルヌーイ試行のうち成功が $y$ 回，失敗が $n-y$ 回となるような，結果（成功 or 失敗）の例を考える．そのような列の総数は， $n$ 回の試行のうち成功が起こった $y$ 個の回数を選ぶ方法の数なので， ${}_n \mathrm{C}_y = n!/(y!(n-y)!)$ である．またこのような特定の列が生じる確率は，すべて $p^y q^{n-y}$ である．これより，二項分布 $Bin(n, p)$ の確率関数が(21)式となることがわかる．

　 $Bin(n, p)$ の期待値と分散は

\begin{align} &E[X] = np \\ &V[X] = npq \end{align}

となる．

(22)の証明

①期待値の定義から二項定理[4]を使って求める．

\begin{align*}
    E[X] &= \sum_y y p(y) \\
    &= \sum_{y=0}^n y \cdot {}_n \mathrm{C}_y p^y q^{n-y} \\
    &= \sum_{y=0}^n y \frac{n!}{(n-y)!y!} p^y q^{n-y} \\
    &= \sum_{y=1}^n \frac{n!}{(n-y)!(y-1)!} p^y q^{n-y} \\
    &= np \sum_{y=1}^n \frac{(n-1)!}{\{(n-1) - (y-1)\}!(y-1)!} p^{y-1} q^{(n-1) - (y-1)} \\
    &= np \sum_{z=0}^{n-1} \frac{(n-1)!}{\{(n-1) - z\}!z!} p^z q^{(n-1) - z} \quad(\because z=y-1) \\
    &= np \sum_{z=0}^{n-1} {}_{n-1} \mathrm{C}_z p^z q^{(n-1) - z} \\
    ここで，二項定理を用いて\\
    &= np (p + q)^{n-1} \\
    &= np \quad(\because p+q=1)
\end{align*}
②ベルヌーイ分布から考える．

Y \sim Bin(n, p) のとき，Y = X_1 + \dots + X_n, \, X_1, \dots, X_n \sim Bin(1, p), i.i.d., と考えていよいので，

\begin{align*}
    E[Y] &= E[X_1] + \dots + E[X_n] \\
    &= nE[X_1] \\
    &= np \quad(\because E[X_1] = p)
\end{align*}

(23)の証明

①E[X(X-1)] を二項定理を用いて求め，V[X] = E[X(X-1)] + E[X] - (E[X])^2 を計算する．

\begin{align*}
    E[Y(Y-1)] &= \sum_y y(y-1) p(y) \\
    &= \sum_{y=0}^n y(y-1) \cdot {}_n \mathrm{C}_y p^y q^{n-y} \\
    &= \sum_{y=0}^n y(y-1) \frac{n!}{(n-y)!y!} p^y q^{n-y} \\
    &= \sum_{y=2}^n \frac{n!}{(n-y)!(y-2)!}  p^y q^{n-y} \\
    &= n(n-1)p^2 \sum_{y=2}^n \frac{(n-2)!}{\{(n-2) - (y-2)\}!(y-2)!} p^{y-2} q^{(n-2) - (y-2)} \\
    &= n(n-1)p^2 \sum_{w=0}^{n-2} \frac{(n-2)!}{\{(n-2) - w\}!w!} p^w q^{(n-2) - w} \quad(\because w=y-2) \\
    &= n(n-1)p^2 \sum_{w=0}^{n-2} {}_{n-2} \mathrm{C}_y p^w q^{(n-2) - w} \\
    ここで，二項定理を用いて\\
    &= n(n-1)p^2 (p + q)^{n-2} \\
    & = n(n-1)p^2 \quad(\because p+q=1) \\
    \\
    \therefore V[X] &= E[X(X-1)] + E[X] - (E[X])^2 \\
    &= n(n-1)p^2 + np - (np)^2 \\
    &= np{(n-1)p + 1 - np} \\
    &= np(1-p) \\
    &= npq
\end{align*}



②ベルヌーイ分布から考える．

Y \sim Bin(n, p) のとき，Y = X_1 + \dots + X_n, \, X_1, \dots, X_n \sim Bin(1, p), i.i.d., と考えていよいので，

\begin{align*}
    V[Y] &= V[X_1] + \dots V[X_n] \\
    &= nV[X_1] \quad(\because Yは独立のため(7)より) \\
    & = npq \quad(\because V[X_1] = pq)
\end{align*}

　
　また，確率母関数は以下のようになる．

\begin{align} G(s) = (ps + q)^n \end{align}

確率母関数を使った期待値と分散の計算

E[X] = G^\prime(1) を用いて期待値を求める.

\begin{align*}
    E[X] &= G^\prime(1) \\
    &= \left. \Big((ps + q)^n\Big)^\prime \right|_{s=1} \\
    &= \left. np(ps + q)^{n-1} \right|_{s=1} \\
    &= np
\end{align*}
E[X(X-1)] = G^{\prime\prime}(1) を用いて分散を求める．

\begin{align*}
    E[X(X-1)] &= G^{\prime\prime}(1) \\
    &= \left. \Big((ps + q)^n\Big)^{\prime\prime} \right|_{s=1} \\
    &= \left. n(n-1)p^2(ps+q)^{n-2} \right|_{s=1} \\
    &= n(n-1)p \\
    \\
    \therefore V[X] &= E[X(X-1)] + E[X] - (E[X])^2 \\
    &= n(n-1)p^2 + np - (np)^2 \\
    &= np{(n-1)p + 1 - np} \\
    &= np(1-p) \\
    &= npq
\end{align*}

(24)の証明

①確率母関数の定義より求める．

\begin{align*}
    E[s^Y] &= \sum_{y=0}^n s^y \cdot {}_n \mathrm{C}_y p^y q^{n-y} \\
    &= \sum_{y=0}^n {}_n \mathrm{C}_y (ps)^y q^{n-y} \\
    ここで，二項定理を用いて\\
    &= (ps + q)^n
\end{align*}
②ベルヌーイ分布から考える．

Y \sim Bin(n, p) のとき，Y = X_1 + \dots + X_n, \, X_1, \dots, X_n \sim Bin(1, p), i.i.d., と考えていよいので，

\begin{align*}
    E[s^Y] &= E[s^{X_1} \dots s^{X_n}] \\
    &= E[s^{X_1}] \times \dots \times E[s^{X_n}] \\
    &= (E[s^{X_1}])^n \\
    &= (ps+q)^n
\end{align*}

　さらに，二項分布には再生性と呼ばれる性質がある．

再生性を持つことの証明

独立な二つの確率変数 Y_1, Y_2 を考える．Y_1 \sim Bin(n_1, p), Y_2 \sim Bin(n_2, p) にそれぞれ従うとき，Y_1 + Y_2 の確率母関数を計算する．[5]この時，確率母関数が同じ形になっていることを示す．

\begin{align*}
    G_{Y_1+Y_2}(s) &= E[s^{Y_1+Y_2}] \\
    &= E[s^{Y_1}s^{Y_2}] \\
    &= E[s^{Y_1}]E[s^{Y_2}] \\
    &= (ps+q)^{n_1}(ps+q)^{n_2} \\
    &= (ps+q)^{n_1+n_2}
\end{align*}
これは，Bin(n_1+n_2, p) の確率母関数に一致する．

ポアソン分布

非負整数値をとる確率変数 $Y$ が，ある $\lambda > 0$ に対して

\begin{align} P(Y = y) = \frac{\lambda^y}{y!}e^{-\lambda}, \quad y=0,1,2,\dots \end{align}

を持つ確率関数としてもつとする．このときの $Y$ の分布をポアソン分布といい， $Po(\lambda)$ と表す．ポアソン分布は，ランダムなイベントの発生回数を表す分布である．これは，単位時間あたり平均 $\lambda$ 回起こるようなランダムなイベントが，単位時間に $y$ 回発生する確率を意味する．

二項分布からの導出

$\lambda = np$ を導入し，二項分布の極限を考えることでポアソン分布を導出できる．これは $\lambda$ が一定になるように $p$ を十分小さくし，同時に $n$ を十分大きくすることで，成功確率の低い（偶然性の高い）減少を表現することを意味する．

\begin{align*} P(Y) &= \lim_{n \to \infty} {}_n \mathrm{C}_y \Big(\frac{\lambda}{n}\Big)^y \Big(1 - \frac{\lambda}{n}\Big)^{n-y} \\ &= \lim_{n \to \infty} \frac{n!}{(n-y)!y!} \Big(\frac{\lambda}{n}\Big)^y \Big(1 - \frac{\lambda}{n}\Big)^{-y} \Big(1 - \frac{\lambda}{n}\Big)^{n} \\ &= \lim_{n \to \infty} \frac{\lambda^y}{y!} \Big(1 - \frac{\lambda}{n}\Big)^{-y} \Big(1 - \frac{\lambda}{n}\Big)^{n} \frac{n(n-1) \dots (n-y+1)}{n^y} \\ \\& ここで，以下が成り立つことより，\\ & \lim_{n \to \infty} \Big(1 - \frac{\lambda}{n}\Big)^{-y} = 1 \\ & \lim_{n \to \infty} \Big(1 - \frac{\lambda}{n}\Big)^n = e^{-\lambda} \quad(\because \lim_{n \to \infty} \Big(1 + \frac{x}{n}\Big)^n = e^{x}) \\ & \lim_{n \to \infty} \frac{n(n-1) \dots (n-y+1)}{n^y} = \lim_{n \to \infty} 1\Big(1 - \frac{1}{n}\Big)\Big(1 - \frac{2}{n}\Big) \dots \Big(1 - \frac{y+1}{n}\Big) = 1 \\ \\ P(Y) &= \frac{\lambda^y}{y!}e^{-\lambda} \end{align*}

(25)が確率関数になることの証明

$e^\lambda$ のマクローリン展開^[6]を用いて，全確率が $1$ になることを示す．

\begin{align*} \sum_{k=0}^{\infty} P(Y=y) &= \sum_{y=0}^{\infty} \frac{\lambda^y}{y!}e^{-\lambda}　\\ &= e^{-\lambda} \sum_{y=0}^{\infty} \frac{\lambda^y}{y!}　\\ &= e^{-\lambda} e^\lambda \quad(\because e^\lambdaのマクローリン展開)　\\ &= 1 \end{align*}

　 $Po(\lambda)$ の期待値と分散は

\begin{align} &E[Y] = \lambda \\ &V[Y] = \lambda \end{align}

となる．^[7]

(26)の証明

期待値の定義から求める．

\begin{align*} E[X] &= \sum_y y p(y) \\ &= \sum_{y=0}^\infty y \cdot \frac{\lambda^y}{y!}e^{-\lambda} \\ &= \lambda \sum_{y=1}^\infty \frac{\lambda^{y-1}}{(y-1)!}e^{-\lambda} \\ &= \lambda \sum_{z=0}^\infty \frac{\lambda^{z}}{z!}e^{-\lambda} \quad(\because z = y-1) \\ &= \lambda \quad(\because \sum_{z=0}^\infty \frac{\lambda^{z}}{z!}e^{-\lambda} = 1) \end{align*}

(27)の証明

$E[Y(Y-1)]$ を求め， $V[Y] = E[Y(Y-1)] + E[Y] - (E[Y])^2$ を計算する．

\begin{align*} E[Y(Y-1)] &= \sum_y y(y-1) p(y) \\ &= \sum_{y=0}^\infty y(y-1) \cdot \frac{\lambda^y}{y!}e^{-\lambda} \\ &= \lambda^2 \sum_{y=2}^\infty \frac{\lambda^(y-2)}{(y-2)!}e^{-\lambda} \\ &= \lambda^2 \sum_{z=0}^\infty \frac{\lambda^z}{z!}e^{-\lambda} \quad(\because z = y-2) \\ &= \lambda^2 \quad(\because \sum_{z=0}^\infty \frac{\lambda^{z}}{z!}e^{-\lambda} = 1) \\ \\ \therefore V[Y] &= E[Y(Y-1)] + E[Y] - (E[Y])^2 \\ &= \lambda^2 + \lambda - \lambda^2 \\ &= \lambda \end{align*}

　また，確率母関数は以下のようになる．

\begin{align} G(s) = e^{\lambda(s-1)} \end{align}

確率母関数を使った期待値と分散の計算

E[X] = G^\prime(1) を用いて期待値を求める.

\begin{align*}
    E[X] &= G^\prime(1) \\
    &= \left. \Big(e^{\lambda(s-1)}\Big)^{\prime} \right|_{s=1} \\
    &= \left. \lambda e^{\lambda(s-1)} \right|_{s=1} \\
    &= \lambda
\end{align*}
E[X(X-1)] = G^{\prime\prime}(1) を用いて分散を求める．

\begin{align*}
    E[X(X-1)] &= G^{\prime\prime}(1) \\
    &= \left. \Big(e^{\lambda(s-1)}\Big)^{\prime\prime} \right|_{s=1} \\
    &= \left. \lambda^2 e^{\lambda(s-1)} \right|_{s=1} \\
    &= \lambda^2 \\
    \\
    \therefore V[X] &= E[X(X-1)] + E[X] - (E[X])^2 \\
    &= \lambda^2 + \lambda - \lambda^2 \\
    &= \lambda
\end{align*}

(28)の証明

確率母関数の定義から求める．

\begin{align*} E[s^Y]&= \sum_{y=0}^{\infty} s^y \cdot \frac{\lambda^y}{y!}e^{-\lambda} \\ &= e^{-\lambda} \sum_{y=0}^{\infty} \frac{(s\lambda)^y}{y!} \\ &= e^{-\lambda} \cdot e^{s\lambda} \quad(\because \sum_{y=0}^{\infty} \frac{(s\lambda)^y}{y!} = e^{s\lambda}) \\ &= e^{\lambda(s-1)} \end{align*}

　さらに，ポアソン分布には再生性と呼ばれる性質がある．

再生性を持つことの証明

独立な二つの確率変数 Y_1, Y_2 を考える．Y_1 \sim Po(\lambda_1), Y_2 \sim Po(\lambda_2) にそれぞれ従うとき，Y_1 + Y_2 の確率母関数を計算する．この時，確率母関数が同じ形になっていることを示す．

\begin{align*}
    G_{Y_1+Y_2} &= E[s^{Y_1 + Y_2}]　\\
    &= E[s^{Y_1}s^{Y_2}]　\\
    &= E[s^{Y_1}]E[s^{Y_2}]　\\
    &= e^{\lambda_1(s-1)} \times e^{\lambda_2(s-1)}　\\
    &= e^{(\lambda_1+\lambda_2)(s-1)}　\\
\end{align*}
これは，Po(\lambda_1+\lambda_2) の確率母関数に一致する．

幾何分布

成功確率 $p(0 < p < 1)$ の独立なベルヌーイ試行を繰り返したとき，最初に成功するまでの試行回数を $X$ とする． $X$ の分布を幾何分布といい， $Geo(p)$ で表す．確率関数 $P(X =x)$ は， $q = 1-p$ を用いて

\begin{align} P(X = x) = pq^{x-1}, \quad x=1,2,\dots \end{align}

のように，幾何数列（等比数列）の形で表される．これは， $X = x$ となるのは「最初の $x$ 回すべて失敗し，その次に成功する」ときであることからわかる．

　 $Geo(p)$ の期待値と分散は

\begin{align} &E[X] = \frac{1}{p}\\ &V[X] = \frac{q}{p^2} \end{align}

となる．

(30)の証明

期待値の定義と $\frac{1}{1-x}$ のマクローリン展開^[8]を応用して求める．

\begin{align*} E[X] &= \sum_x x p(x) \\ &= \sum_{x=1}^\infty x \cdot pq^{x-1} \\ &= p \sum_{x=1}^\infty x \cdot (1-p)^{x-1} \quad(\because q = 1 -p)\\ &= \frac{p}{\{1 - (1-p)\}^2} \quad(\because \frac{1}{(1-x)^2} = \sum_{n=1}^{\infty} nx^{n-1}) \\ &= \frac{1}{p} \end{align*}

(31)の証明

$\frac{1}{1-x}$ のマクローリン展開^[9]を応用して $E[X(X-1)]$ を求め， $V[X] = E[X(X-1)] + E[X] - (E[X])^2$ を計算する．

\begin{align*} E[X(X-1)] &= \sum_x x(x-1) p(x) \\ &= \sum_{x=2}^\infty x(x-1) \cdot pq^{x-1} \\ &= p \sum_{x=2}^\infty x(x-1) \cdot (1-p)^{x-1} \quad(\because q = 1 - p) \\ &= p(1-p) \sum_{x=2}^\infty x(x-1) \cdot (1-p)^{x-2} \\ &= \frac{2p(1-p)}{\{1 - (1-p)\}^3} \\ &= \frac{2(1-p)}{p^2} \\ \\ \therefore V[X] &= E[X(X-1)] + E[X] - (E[X])^2 \\ &= \frac{2(1-p)}{p^2} + \frac{1}{p} - \frac{1}{p^2} \\ &= \frac{1-p}{p^2} \\ &= \frac{q}{p^2} \quad(\because q = 1 - p) \end{align*}

　また，確率母関数は以下のようになる．

\begin{align} G(s) = \frac{ps}{1-qs}, \quad |s| < \frac{1}{q} \end{align}

確率母関数を使った期待値と分散の計算

E[X] = G^\prime(1) を用いて期待値を求める.

\begin{align*}
    E[X] &= G^\prime(1) \\
    &= \left. \Big(\frac{ps}{1-qs}\Big)^{\prime} \right|_{s=1} \\
    &= \left. \frac{p(1-qs) - ps(-q)}{(1-qs)^2} \right|_{s=1} \\
    &= \left. \frac{p}{\{1 - (1 - p)s\}^2} \right|_{s=1} \quad(\because q = 1 - p) \\
    &= \frac{1}{p}
\end{align*}
E[X(X-1)] = G^{\prime\prime}(1) を用いて分散を求める．

\begin{align*}
    E[X(X-1)] &= G^{\prime\prime}(1) \\
    &= \left. \Big(\frac{ps}{1-qs}\Big)^{\prime\prime} \right|_{s=1} \\
    &= \left. \Big(\frac{p}{(1-qs)^2}\Big)^{\prime} \right|_{s=1} \\
    &= \left. \frac{0 \cdot (1-qs)^2 - p \cdot 2(1-qs)(-q)}{(1-qs)^4} \right|_{s=1} \\
    &= \left. \frac{2pq}{(1-qs)^3} \right|_{s=1} \\
    &= \left. \frac{2p(1-p)}{\{1-(1-p)s\}^3} \right|_{s=1} \quad(\because q = 1 - p) \\
    &= \frac{2p(1-p)}{p^3} \\
    &= \frac{2(1-p)}{p^2}
    \\
    \therefore V[X] &= E[X(X-1)] + E[X] - (E[X])^2 \\
    &= \frac{2(1-p)}{p^2} + \frac{1}{p} - \Big(\frac{1}{p}\Big)^2 \\
    &= \frac{2(1-p) + p - 1}{p^2}　\\
    &= \frac{1 - p}{p^2} \\
    &= \frac{q}{p^2} \quad(\because q = 1 - p)
\end{align*}

(32)の証明

$\frac{1}{1-x}$ のマクローリン展開と確率母関数の定義から求める．

\begin{align*} E[s^X]&= \sum_{x=1}^{\infty} s^x \cdot pq^{x-1} \\ &= ps \sum_{x=1}^{\infty} (qs)^{x-1} \\ &= ps \sum_{y=0}^{\infty} (qs)^y \quad(\because y = x -1) \\ &= ps \cdot \frac{1}{1-qs} \quad(\because \frac{1}{1-x} = \sum_{n=0}^{\infty} x^n) \\ &= \frac{ps}{1-qs} \end{align*}

　さらに，幾何分布の無記憶性と呼ばれる性質として， $X \sim Geo(p)$ のとき

\begin{align} P(X \geq t_1 + t_2 | X \geq t_1) = P(X \geq t_2), \quad t_1,t_2 = 0,1,2,\dots \end{align}

が成り立つ．

無記憶性の証明

$t = 1, 2, \dots$ に対し，「 $X \geq t$ 」が「t回目で初めて成功」と同値なので $P(X \geq t) = pq^{t-1}$ となるため， $t_1, t_2 = 1, 2, \dots$ に対して $P(X \geq t_1 + t_2 | X \geq t_1) = pq^{t_1-1} \cdot pq^{t_2-1} / pq^{t_1-1} = pq^{t_2-1} = P(X \geq t_2)$ となることからわかる．

超幾何分布

$M$ 個の赤玉と $N-M$ 個の白玉の合計 $N$ 個の玉の入った壺から，非復元無作為抽出で $n$ 個の玉を取り出すとき，取り出された $n$ 個の玉のうちの赤玉の個数 $Y$ の分布を超幾何分布といい， $HG(N, M, n)$ で表す．超幾何分布は復元無作為抽出ではなく，非復元無作為抽出によって従う分布である．

　 $Y \sim HG(N, M, n)$ の確率関数は

\begin{align} P(Y = y) = \frac{{}_M \mathrm{C}_y \times {}_{N-M} \mathrm{C}_{n-y}}{{}_N \mathrm{C}_n}, \quad max\{0, n-(N-M)\} \leq y \leq min\{n, M\} \end{align}

である．
　確率関数 $(34)$ の分母は， $N$ 個の玉から $n$ 個の玉をとる組合せの総数であり，分子は， $M$ 個の赤玉から $y$ 個とり， $N-M$ 個の白玉から $n-y$ 個の玉をとる組合せの総数である．
　 $y$ の条件の範囲 $max\{0, n-(N-M)\} \leq y \leq min\{n, M\}$ は， $0 \leq y \leq M, 0 \leq n-y \leq N-M$ を言い換えたものである．
　具体例で考えるとわかりやすい． $y$ の最小値は， $n$ 個の玉の取り方が白玉の個数である $N-M$ 個より少なくなる場合，1つも赤玉の取り出されないことがあるので $0$ になる． $n$ 個の玉の取り方が白玉の個数である $N-M$ 個より多くなる場合は，赤玉が必ず $n - (N-M)$ 個以上含まれるので $n - (N-M)$ が最小になる．また $y$ の最大値は， $n$ 個の玉の取り方が赤玉の個数である $M$ 個より少なくなる場合，赤玉は $n$ 個より多く取り出せないので $n$ となる． $n$ 個の玉の取り方が赤玉の個数である $M$ 個より多くなる場合は， $M$ 個以上赤玉が存在しないので $M$ が最大になる．

超幾何分布の極限は二項分布の証明

\begin{align*}
    P(Y = y) &= \frac{{}_M \mathrm{C}_y \times {}_{N-M} \mathrm{C}_{n-y}}{{}_N \mathrm{C}_n} \\
    &= \frac{\frac{M!}{(M-y)!y!} \times \frac{(N-M)!}{\{(N-M)-(n-y)\}!(n-y)!}}{\frac{N!}{(N-n)!n!}} \\
    &= \frac{n!}{(n-y)!y!} \cdot \frac{M!}{(M-y)!} \cdot \frac{(N-M)!}{((N-M)-(n-y))!} \cdot \frac{(N-n)!}{N!} \\
    &= {}_n \mathrm{C}_y \cdot \frac{M(M-1) \cdots (M-y+1) \cdot (N-M)(N-M-1) \cdots ((N-M)-(n-y)+1)}{N(N-1) \cdots (N-n+1)} \\
    &= {}_n \mathrm{C}_y \cdot \frac{M(M-1) \cdots (M-y+1)}{N(N-1) \cdots (N-y+1)} \cdot \frac{(N-M)(N-M-1) \cdots ((N-M)-(n-y)+1)}{(N-y)(N-y-1) \cdots ((N-y)-(n-y)+1)} \\
    &= {}_n \mathrm{C}_y \cdot \prod_{i=0}^{i=y-1} \frac{M-i}{N-i} \cdot \prod_{j=0}^{j=n-y-1} \frac{N-M-j}{N-y-j} \\
    &= {}_n \mathrm{C}_y \cdot \prod_{i=0}^{i=y-1} \frac{\frac{M}{N} - \frac{i}{N}}{1 - \frac{i}{N}} \cdot \prod_{j=0}^{j=n-y-1} \frac{1- \frac{M}{N} - \frac{j}{N}}{1 - \frac{y}{N} - \frac{j}{N}} \\
    &= {}_n \mathrm{C}_y \cdot \prod_{i=0}^{i=y-1} \frac{p - \frac{i}{N}}{1 - \frac{i}{N}} \cdot \prod_{j=0}^{j=n-y-1} \frac{1- p - \frac{j}{N}}{1 - \frac{y}{N} - \frac{j}{N}} \quad(\because \frac{M}{N} = p)
\end{align*}
ここで N \to \infty であるから，1つめの総積は

\lim_{N \to \infty} \prod_{i=0}^{i=y-1} \frac{p - \frac{i}{N}}{1 - \frac{i}{N}} = \prod_{k=1}^{k=y} \lim_{N \to \infty} \frac{p - \frac{k}{N}}{1 - \frac{k}{N}} = p^y \quad(\because i = k-1)
さらに，2つ目の総積も同様にして

\prod_{j=0}^{j=n-y-1} \lim_{N \to \infty} \frac{1- p - \frac{j}{N}}{1 - \frac{y}{N} - \frac{j}{N}} = \prod_{l=1}^{l=n-y} \lim_{N \to \infty} \frac{1- p - \frac{l}{N}}{1 - \frac{y}{N} - \frac{l}{N}} = (1-p)^{n-y} \quad(\because l = j-1)

\therefore \lim_{N \to \infty} P(Y = y) = {}_n \mathrm{C}_y \cdot p^y (1-p)^{n-y}

(34)が確率関数になることの証明

(a+b)^N = (a+b)^M (a+b)^{N-M}
の両辺をn,k,jを用いて二項展開すると

\sum_{n=0}^{N} {}_N \mathrm{C}_n a^n b^{N-n} = \sum_{k=0}^{M} {}_M \mathrm{C}_k a^k b^{M-k} \sum_{j=0}^{N-M} {}_{N-M} \mathrm{C}_j a^j b^{M-N-j}
両辺の a^n b^{N-n} の係数を比較する．n = k + j となるように右辺の係数を集めれば[10]

\begin{align*}
    {}_N \mathrm{C}_n &= \sum_{n=k+j, 0<k, j<n}^{n} {}_M \mathrm{C}_k \cdot {}_{N-M} \mathrm{C}_{j} \\
    &= \sum_{k=0}^{n} {}_M \mathrm{C}_k \cdot {}_{N-M} \mathrm{C}_{n-k}
\end{align*}
これを式変形すると

\sum_{k=0}^{n} \frac{{}_M \mathrm{C}_k \cdot {}_{N-M} \mathrm{C}_k}{{}_N \mathrm{C}_{n-k}} = 1
となり，k=y とすると，式(34)において確率の総和が1になることが示された．

　 $HG(N, M, n)$ の期待値と分散は

\begin{align} &E[Y] = n \frac{M}{N} \\ &V[Y] = n \frac{M}{N} \Big(\frac{N-M}{N}\Big) \Big(\frac{N-n}{N-1}\Big)　 \end{align}

となる．

(35)の証明

①期待値の定義から全確率の公式を使って求める．

\begin{align*}
    E[Y] &= \sum_{y} yp(y) \\
    &= \sum\nolimits_{max\{0, n-(N-M)\}}^{min\{n, M\}} y \cdot \frac{{}_M \mathrm{C}_y \times {}_{N-M} \mathrm{C}_{n-y}{}}{{}_{N} \mathrm{C}_{n}} \\
    \\
    &ここで，以下が成り立つことより，\\
    & y \cdot {}_M \mathrm{C}_y = \frac{M(M-1)!}{\{(M-1) - (y-1)\}!(y-1)!} = M \cdot {}_{M-1} \mathrm{C}_{y-1} \\
    & {}_{N-M} \mathrm{C}_{n-y}{} = \frac{((N-1) - (M-1))!}{\{((N-1) - (M-1)) - ((n-1)-(y-1))\}!((n-1)-(y-1))!} = {}_{(N-1)-(M-1)} \mathrm{C}_{(n-1)-(y-1)} \\
    & {}_{N} \mathrm{C}_{n} = \frac{N(N-1)!}{n\{(N-1) - (n-1)\}!(n-1)!} = \frac{N}{n} \cdot {}_{N-1} \mathrm{C}_{n-1} \\
    \\
    &= \sum\nolimits_{max\{0, n-(N-M)\}}^{min\{n, M\}} \frac{M \cdot {}_{M-1} \mathrm{C}_{y-1} \times {}_{(N-1)-(M-1)} \mathrm{C}_{(n-1)-(y-1)}}{\frac{N}{n} \cdot {}_{N-1} \mathrm{C}_{n-1}} \\
    &= \frac{nM}{N} \sum\nolimits_{max\{0, n-(N-M)\}}^{min\{n, M\}} \frac{{}_{M-1} \mathrm{C}_{y-1} \times {}_{(N-1)-(M-1)} \mathrm{C}_{(n-1)-(y-1)} }{{}_{N-1} \mathrm{C}_{n-1}} \\
    &= \frac{nM}{N} \sum\nolimits_{max\{0, (n-1)-((N-1)-(M-1))\}}^{min\{n-1, M-1\}} \frac{{}_{M-1} \mathrm{C}_{z} \times {}_{(N-1)-(M-1)} \mathrm{C}_{(n-1)-z} }{{}_{N-1} \mathrm{C}_{n-1}} \quad(\because z = y-1) \\
    &= \frac{nM}{N} \quad\Big(\because \sum\nolimits_{max\{0, (n-1)-((N-1)-(M-1))\}}^{min\{n-1, M-1\}} \frac{{}_{M-1} \mathrm{C}_{z} \times {}_{(N-1)-(M-1)} \mathrm{C}_{(n-1)-z} }{{}_{N-1} \mathrm{C}_{n-1}} = 1\Big)
\end{align*}



②まず i 回目の抽出で赤玉を取り出した場合に X_i = 1，白玉を取り出した場合に X_i = 0 のように確率変数 X_i を定義する．このときの確率変数 Y は Y = X_1 + X_2 + \dots + X_n のように表せることに基づいて期待値 E[Y] を導出する．
E[X_i] は次のように表せる．

\begin{align*}
    E[X_i] &= 0 \cdot P(X_i = 0) + 1 \cdot P(X_i = 1) \\
    &= P(X_i = 1) \\
    &= \frac{M}{N}
\end{align*}
X_i の和の期待値 E[Y] は期待値の線形性を用いて，以下のように考えることができる．

\begin{align*}
    E[Y] &= E[X_1 + X_2 + \dots + X_n] \\
    &= nE[X_i] \quad(\because (2)式) \\
    &= n \cdot \frac{M}{N}
\end{align*}

(36)の証明

① E[Y(Y-1)] を求め，V[Y] = E[Y(Y-1)] + E[Y] - (E[Y])^2を計算する．

\begin{align*}
    E[Y(Y-1)] &= \sum_{y} y(y-1)p(y) \\
    &= \sum\nolimits_{max\{0, n-(N-M)\}}^{min\{n, M\}} y(y-1) \cdot \frac{{}_M \mathrm{C}_y \times {}_{N-M} \mathrm{C}_{n-y}{}}{{}_{N} \mathrm{C}_{n}} \\
    \\
    &ここで，以下が成り立つことより，\\
    & y(y-1) \cdot {}_M \mathrm{C}_y = \frac{M(M-1)(M-2)!}{\{(M-2) - (y-2)\}!(y-2)!} = M(M-1) \cdot {}_{M-2} \mathrm{C}_{y-2} \\
    & {}_{N-M} \mathrm{C}_{n-y}{} = \frac{((N-2) - (M-2))!}{\{((N-2) - (M-2)) - ((n-2)-(y-2))\}!((n-2)-(y-2))!} = {}_{(N-2)-(M-2)} \mathrm{C}_{(n-2)-(y-2)} \\
    & {}_{N} \mathrm{C}_{n} = \frac{N(N-1)(N-2)!}{n(n-1)\{(N-2) - (n-2)\}!(n-2)!} = \frac{N(N-1)}{n(n-1)} \cdot {}_{N-2} \mathrm{C}_{n-2} \\
    \\
    &= \sum\nolimits_{max\{0, n-(N-M)\}}^{min\{n, M\}} \frac{M(M-1) \cdot {}_{M-2} \mathrm{C}_{y-2} \times {}_{(N-2)-(M-2)} \mathrm{C}_{(n-2)-(y-2)}}{\frac{N(N-1)}{n(n-1)} \cdot {}_{N-2} \mathrm{C}_{n-2}} \\
    &= \frac{M(M-1)n(n-1)}{N(N-1)} \sum\nolimits_{max\{0, n-(N-M)\}}^{min\{n, M\}} \frac{{}_{M-2} \mathrm{C}_{y-2} \times {}_{(N-2)-(M-2)} \mathrm{C}_{(n-2)-(y-2)}}{{}_{N-2} \mathrm{C}_{n-2}} \\
    &= \frac{M(M-1)n(n-1)}{N(N-1)} \sum\nolimits_{max\{0, (n-2)-((N-2)-(M-2))\}}^{min\{n-2, M-2\}} \frac{{}_{M-2} \mathrm{C}_{z} \times {}_{(N-2)-(M-2)} \mathrm{C}_{(n-2)-z}}{{}_{N-2} \mathrm{C}_{n-2}} \\
    &= \frac{M(M-1)n(n-1)}{N(N-1)} \quad\Big(\because \sum\nolimits_{max\{0, (n-2)-((N-2)-(M-2))\}}^{min\{n-2, M-2\}} \frac{{}_{M-2} \mathrm{C}_{z} \times {}_{(N-2)-(M-2)} \mathrm{C}_{(n-2)-z} }{{}_{N-1} \mathrm{C}_{n-2}} = 1\Big) \\
    \\
    \therefore V[Y] &= E[Y(Y-1)] + E[Y] - (E[Y])^2 \\ \\
    &= \frac{M(M-1)n(n-1)}{N(N-1)} + n \frac{M}{N} - \Big\{n \frac{M}{N}\Big\}^2 \\
    &= \frac{M(M-1)n(n-1)}{N(N-1)} + n \frac{M}{N}\Big(1 - n \frac{M}{N}\Big) \\
    &= n \frac{M}{N} \Big\{\frac{(M-1)(n-1)}{N-1} + 1 - n \frac{M}{N}\Big\} \\
    &= n \frac{M}{N} \Big\{\frac{N(M-1)(n-1) + N(N-1) - nM(N-1)}{N(N-1)}\Big\} \\
    &= n \frac{M}{N} \Big\{\frac{N^2 - (nN + MN) + nM}{N(N-1)}\Big\} \\
    &= n \frac{M}{N} \Big\{\frac{(N-M)(N-n)}{N(N-1)}\Big\} \\
    &= n \frac{M}{N} \Big(\frac{N-M}{N}\Big) \Big(\frac{N-n}{N-1}\Big)
\end{align*}
②まず i 回目の抽出で赤玉を取り出した場合に X_i = 1，白玉を取り出した場合に X_i = 0 のように確率変数 X_i を定義する．このときの確率変数 Y は Y = X_1 + X_2 + \dots + X_n のように表せることに基づいて期待値 V[X_i^2] と Cov(X_i, X_j) を導出し，V[X_i + X_j] = V[X_i] + V[X_j] + 2 Cov(X_i, X_j) を用いて V[Y] を計算する．
E[X_i^2], E[X_i X_j], i \neq j は次のように表せる．

\begin{align*}
    E[X_i^2] &= 0^2 P(X_i = 0) + 1^2 P(X_i = 1) \\
    &= P(X_i = 1) \\
    &= \frac{M}{N} \\
    E[X_i X_j] &= (0 \cdot 0) \times P(X_i = 0, X_j = 0) + (1 \cdot 0) \times P(X_i = 1, X_j = 0) + (0 \cdot 1) \times P(X_i = 1, X_j = 1) + (1 \cdot 1) \times P(X_i = 1, X_j = 1)\\
    &= P(X_i = 1, X_j = 1) \\
    &= \frac{M(M-1)}{N(N-1)}
\end{align*}
このとき，V[X_i], Cov(X_i, X_j) は次のように表せる．

\begin{align*}
    V[X_i] &= E[X_i^2] - E[X_i]^2 \\
    &= \frac{M}{N} - \Big(\frac{M}{N}\Big)^2 \\
    &= \frac{M(N-M)}{N^2} \\
    Cov(X_i, X_j) &= E[X_iX_j] - E[X_i]E[X_j] \\
    &= \frac{M(M-1)}{N(N-1)} - \frac{M}{N} \cdot \frac{M}{N} \\
    &= \frac{MN(M-1) - M^2(N-1)}{N^2(N-1)} \\
    &= \frac{M(M-N)}{N^2(N-1)}
\end{align*}
上記で求めたことを用いて，分散 Y を求める．

\begin{align*}
    V[Y] &= V[X_1 + X_2 + \dots + X_n] \\
    &= V[X_1] + V[X_2] + \dots + V[X_n] + 2Cov(X_1, X_2) + \dots +  2Cov(X_1, X_n) + 2Cov(X_2, X_3) + \dots 2Cov(X_2, X_n) + \dots 2Cov(X_{n-1}, X_n) \\
    \\
    &ここで，2Cov(X_1, X_2) + \dots +  2Cov(X_1, X_n) + 2Cov(X_2, X_3) + \dots 2Cov(X_2, X_n) + \dots 2Cov(X_{n-1}, X_n)は \\
    &n個から2個の共分散の組み合わせを選んでいるだけなので，\\
    &すべての分散と共分散はV[X_i]とCov(X_i, X_j)を用いて表せることから，\\
    \\
    &= nV[X_i] + 2 {}_n \mathrm{C}_2 Cov(X_i, X_j) \\
    &= nV[X_i] + n(n-1)Cov(X_i, X_j) \\
    &= n \cdot \frac{M(N-M)}{N^2} + n(n-1) \cdot \frac{M(M-N)}{N^2(N-1)} \\
    &= n\frac{M}{N} \Big(\frac{N-M}{N} - \frac{(n-1)(N-M)}{N(N-1)}\Big) \\
    &= n\frac{M}{N} \Big(\frac{N-M}{N}\Big) \Big(\frac{N-n}{N-1}\Big)
\end{align*}

　さらに，超幾何分布から有限母集団修正というものを考えることができる．(35)式で表される期待値は，復元抽出の場合の二項分布 $Bin(n, M/N)$ の期待値と一致する．分散は，復元抽出の場合の二項分布 $Bin(n, M/N)$ の分散を $(N-n)/(N-1)$ 倍したものである． $n \geq 2$ のとき $(N-n)/(N-1) < 1$ である．この $(N-n)/(N-1)$ を有限母集団修正という．

負の二項分布

$p$ は $0 < p < 1$ を満たすとし， $r$ は正の整数とする．成功確率 $p$ の独立なベルヌーイ試行を繰り返し行い， $r$ 回目の成功が起こった時点で，それまでに起こった失敗の回数を $Y$ とする． $Y$ の分布を負の二項分布といい， $NB(r,p)$ と表す．特に $NB(1, p)$ は，幾何分布 $Geo(p)$ である．
　確率関数は， $q = 1 - p$ を用いて

\begin{align} P(Y=y) = {}_r \mathrm{H}_y p^r q^y, \quad y=0,1,2, \dots \end{align}

と表される．ここで ${}_r \mathrm{H}_y$ は， $r$ 個の異なるものから重複を許して $y$ 個を選んでできる組み合わせ（重複組合せ）の総数であり，非負整数 $x_1 + \cdots + x_r = y$ に関する方程式の解 $(x_1, \dots, x_r)$ の総数に等しい．^[12]具体的には

\begin{align} {}_r \mathrm{H}_y = {}_{y+r-1} \mathrm{C}_y = \frac{(y+r-1)(y+r-2) \cdots (r+1)r}{y!} \end{align}

である．式(37)は， $Y=y$ となるのは「最初の $y+r-1$ 回の試行で成功が $r-1$ 回，失敗が $y$ 回起こり， $y+r$ 回目の試行で成功が起こる」ときであることから， $P(Y=y) = {}_r \mathrm{H}_y p^{r-1} q^y \times p = {}_r \mathrm{H}_y p^r q^y$ として得られる．ここで ${}_r \mathrm{H}_y$ は，「 $1$ 回目の成功より前」，「 $1$ 回目と $2$ 回目の成功の間」，「 $r-1$ 回目の成功より後」という $r$ 個の期間の中から重複を許して，（失敗が起こる期間として） $y$ 個選ぶ重複組合せの総数，つまり各期間に起こる失敗の回数としての非負整数 $x_1, \dots, x_r (x_1 + \cdots + x_r = y)$ の決め方の総数，と考えれば良い．

　二項分布との違いを以下の表にまとめる．

	二項分布 $B(n, p)$	負の二項分布 $NB(r, p)$
確率質量関数	${}_n \mathrm{C}_k p^k q^{n-k}$	${}_{k+r-1} \mathrm{C}_k p^k q^r$
成功確率	$p$ (固定)	$p$ (固定)
試行回数	$n$ (固定)	$k+r$
失敗回数	$n-k$	$r$ (固定)
成功回数	$k=0,1,2,\dots,n$	$k=0,1,2,\dots$

両者の違いとして，試行回数を固定しているのが二項分布であり，失敗回数を固定しているのが負の二項分布であることがわかる．

　 $NB(r, p)$ の期待値と分散は

\begin{align} E[Y] &= \frac{qr}{p} \\ V[Y] &= \frac{qr}{p^2} \end{align}

となる．

(39)の証明

①期待値の定義から求める．

\begin{align*}
    E[Y] &= \sum_y y p(y) \\
    &= \sum_{y=0}^{\infty} y \cdot {}_{y+r-1} \mathrm{C}_y p^r q^y \\
    &= \sum_{y=1}^{\infty} \frac{(y+r-1)!}{(y-1)!(r-1)!} p^r q^y　\quad(\because y=0のとき，y \cdot {}_{y+r-1} \mathrm{C}_y p^r q^y = 0)\\
    &= \sum_{y=1}^{\infty} r \cdot \frac{(y-1+r)!}{(y-1)!r!} p^r q^y \\
    &= r \sum_{y=1}^{\infty} {}_{y-1+r} \mathrm{C}_{y-1} p^r q^y \\
    &= r \sum_{z=0}^{\infty} {}_{z+s-1} \mathrm{C}_{z} p^{s-1} q^{z+1} \quad(\because z=y-1, r=s-1) \\
    &= \frac{qr}{p} \sum_{z=0}^{\infty} {}_{z+s-1} \mathrm{C}_{z} p^s q^z \\
    &= \frac{qr}{p} \quad(\because \sum_{z=0}^{\infty} {}_{z+s-1} \mathrm{C}_{z} p^s q^z = 1)
\end{align*}
②幾何分布から考える．

X_1, \dots, X_r \sim Geo(p),i.i.d. に対して Y \stackrel{\mathrm{d}}{=} X_1 + \cdots + X_r となることと，[13]E[X_1] = q/pであることから，[14]

\begin{align*}
    E[Y] &= E[X_1 + \cdots + X_r] \\
    &= E[X_1] + \cdots + E[X_r] \\
    &= rE[X_1] \\
    &= \frac{qr}{p}
\end{align*}

(40)の証明

① E[Y(Y-1)] を求め，V[Y] = E[Y(Y-1)] + E[Y] - (E[Y])^2を計算する．

\begin{align*}
    E[Y(Y-1)] &= \sum_y y(y-1) p(y) \\
    &= \sum_y^{\infty} y(y-1) \cdot {}_{y+r-1} \mathrm{C}_y p^r q^y \\
    &= \sum_{y=2}^{\infty} \frac{(y+r-1)!}{(y-2)!(r-1)!} p^r q^y \quad(\because y=0,1のとき，y(y-1) \cdot {}_{y+r-1} \mathrm{C}_y p^r q^y = 0) \\
    &= \sum_{y=2}^{\infty} r(r+1) \cdot \frac{\{(y-2) + (r+1)\}!}{(y-2)!(r+1)!} p^r q^y \\
    &= r(r+1) \sum_{y=2}^{\infty} {}_{(y-2) + (r+1)} \mathrm{C}_{y-2} p^r q^y \\
    &= r(r+1) \sum_{z=0}^{\infty} {}_{z+s-1} \mathrm{C}_{z} p^{s-2} q^{z+2} \quad(\because z=y-2, r+1=s-1)\\
    &= \frac{q^2r(r+1)}{p^2} \sum_{z=0}^{\infty} {}_{z+s-1}  \mathrm{C}_{z} p^s q^z \\
    &= \frac{q^2r(r+1)}{p^2} \quad(\because \sum_{z=0}^{\infty} {}_{z+s-1}  \mathrm{C}_{z} p^s q^z = 1) \\
    \\
    \therefore V[Y] &= E[Y(Y-1)] + E[Y] - (E[Y])^2 \\
    &= \frac{qr(r+1)}{p^2} + \frac{qr}{p} - \Big(\frac{qr}{p} \Big)^2 \\
    &= \frac{q^2r(r+1) + pqr - (qr^2)}{p^2} \\
    &= qr \frac{q(r+1) + p - (qr)}{p^2} \\
    &= \frac{qr}{p^2} \quad(\because p + q = 1)
\end{align*}
②幾何分布から考える．

X_1, \dots, X_r \sim Geo(p),i.i.d. に対して[15] Y \stackrel{\mathrm{d}}{=} X_1 + \cdots + X_r となることと，V[X_1] = q/p^2であることから，

\begin{align*}
    V[Y] &= V[X_1 + \cdots + X_r] \\
    &= V[X_1] + \cdots + V[X_r] \quad(\because X_1, \dots, X_r \sim Geo(p),i.i.d.) \\
    &= rV[X_1] \\
    &= \frac{qr}{p^2}
\end{align*}

　また，確率母関数は以下のようになる．

\begin{align} G(s) = \Big(\frac{p}{1-qs}\Big), \quad |s| < \frac{1}{q} \end{align}

確率母関数を使った期待値と分散の計算

E[Y] = G^{\prime}(1) を用いて期待値を求める．

\begin{align*}
    E[X] &= G^{\prime}(1) \\
    &= \left. \Big\{\Big(\frac{p}{1-qs}\Big)^r\Big\}^{\prime} \right|_{s=1} \\
    &= \left. r\Big(\frac{p}{1-qs}\Big)^{r-1} \frac{0-p(-q)}{(1-qs)^2} \right|_{s=1} \\
    &= \left. qr \frac{p^r}{(1-qs)^{r+1}} \right|_{s=1} \\
    &= qr \frac{p^r}{p^{r+1}} \quad(\because q=1-p) \\
    &= \frac{qr}{p}
\end{align*}
E[X(X-1)] = G^{\prime\prime}(1) を用いて分散を求める．

\begin{align*}
    E[X(X-1)] &= G^{\prime\prime}(1) \\
    &= \left. \Big\{\Big(\frac{p}{1-qs}\Big)^r\Big\}^{\prime\prime} \right|_{s=1} \\
    &= \left. qr \cdot (r+1) \frac{0 - p^r(1-qs)^r(-q)}{(1-qs)^{2(r+1)}} \right|_{s=1} \\
    &= \left. qr(r+1) \frac{p^rq(1-qs)^r}{(1-qs)^{2(r+1)}} \right|_{s=1} \\
    &= qr(r+1) \frac{p^{2r}q}{p^2(r+1)} \quad(\because q=1-p) \\
    &= \frac{qr(r+1)}{p^2} \\
    \\
    \therefore V[Y] &= E[Y(Y-1)] + E[Y] - (E[Y])^2 \\
    &= \frac{qr(r+1)}{p^2} + \frac{qr}{p} - \Big(\frac{qr}{p} \Big)^2 \\
    &= \frac{q^2r(r+1) + pqr - (qr^2)}{p^2} \\
    &= qr \frac{q(r+1) + p - (qr)}{p^2} \\
    &= \frac{qr}{p^2} \quad(\because p + q = 1)
\end{align*}

(41)の証明

①確率母関数の定義から求める．

\begin{align*}
    E[s^Y] &= \sum_{y=0}^{\infty} s^y {}_{y+r-1} \mathrm{C}_y p^r q^y \\
    &= \sum_{y=0}^{\infty} {}_{y+r-1} \mathrm{C}_y p^r (qs)^y \\
    &= p^r \sum_{y=0}^{\infty} {}_{y+r-1} \mathrm{C}_y (qs)^y \\
    &= \frac{p^r}{(1-qs)^r} \sum_{y=0}^{\infty} {}_{y+r-1} \mathrm{C}_y (1-qs)^r (qs)^y \quad(\because qsも確率である) \\
    &= \Big(\frac{p}{1-qs}\Big)^r \quad (\because \sum_{y=0}^{\infty} {}_{y+r-1} \mathrm{C}_y (1-qs)^r (qs)^y = 1)
\end{align*}
②幾何分布から考える．

X_1, \dots, X_r \sim Geo(p), i.i.d. のとき Y = X_1 + \cdots X_r が負の二項分布になることから，E[s^{X_1}] = p/(1-qs) を用いて

\begin{align*}
    E[s^Y] &= E[s^{X_1 + \cdots + X_r}] \\
    &= E[s^{X_1} \times \cdots \times s^{X_r}] \\
    &= E[s^{X_1}] \cdots E[s^{X_r}] \\
    &= \Big(E[s^{X_1}]\Big)^r \\
    &= \Big(\frac{p}{1-qs}\Big)^r
\end{align*}
③負の二項係数を導入して，テイラー展開[16]を用いて計算する．

負の二項分布の確率関数(37)の係数に現れる {}_r \mathrm{H}_y は，負の -r に対する二項係数を用いて以下のように書き直せる．

\begin{align*}
    {}_r \mathrm{H}_y &= \frac{r(r+1) \cdots (r+y-2)(r+y-1)}{y!} \\
    &= (-1)^y \cdot \frac{(-r)(-r-1) \cdots (-r-y+2)(-r-y+1)}{y!} \\
    &= (-1)^y \cdot \frac{(-r)!}{(-r+t)!y!} \\
    &= (-1)^y {}_{-r} \mathrm{C}_y \\
\end{align*}
これを負の二項係数と呼び，定義に従って確率母関数を計算する．

\begin{align*}
    E[s^Y] &= \sum_{y=0}^{\infty} s^y (-1)^y {}_{-r} \mathrm{C}_y p^r q^y \\
    &= p^r \sum_{y=0}^{\infty} {}_{-r} \mathrm{C}_y (-qs)^y \\
    &= p^r (1-qs)^{-r} \quad(\because (1-qs)^{-r}のテイラー展開)\\
    &= \Big(\frac{p}{1-qs}\Big)^r
\end{align*}

r 回成功するまでにかかる回数 W の分布を負の二項分布と呼ぶこともある．

この場合，W の確率関数は

P(W) = {}_{w-1} \mathrm{C}_{r-1} p^k q^{w-r}, \quad w \geq r, w = 1, 2, \dots
であり，期待値と分散は最初に成功するまでの試行回数が従う幾何分布 X_1, \dots, X_r \sim Geo(p), i.i.d. から考えると

\begin{align*}
    E[W] &= E[X_1 + \cdots + X_r] = E[X_1] + \cdots + E[X_r] = rE[X_1] = \frac{r}{p} \quad(\because E[X_1] = 1/p) \\
    V[W] &= V[X_1 + \cdots + X_r] = V[X_1] + \cdots + V[X_r] = rV[X_1] = \frac{rq}{p^2} \quad(\because V[X_1] = q/p^2)
\end{align*}
である．確率母関数も期待値と分散と同様にして

\begin{align*}
E[s^W] &= E[s^{X_1 + \cdots + X_r}] \\
       &= E[s^{X_1} \times \cdots \times s^{X_r}] \\
       &= E[s^{X_1}] \cdots E[s^{X_r}] \\
       &= \Big(E[s^{X_1}]\Big)^r \\
       &= \Big(\frac{ps}{1-qs}\Big)^r \quad(\because E[s^{X_1}] = \frac{ps}{1-qs})
\end{align*}
となる．

　さらに，負の二項分布は再生成と呼ばれる性質がある．

再生成を持つことの証明

独立な二つの確率変数 Y_1, Y_2 を考える．Y_1 \sim NB(r_1, p)，Y_2 \sim NB(r_2, p) にそれぞれ従うとき，Y_1 + Y_2 の確率母関数を計算する．[17]この時，確率母関数が同じ形になっていることを示す．

\begin{align*}
    G_{Y_1+Y_2} &= E[s^{Y_1 + Y_2}] \\
    &= E[s^{Y_1}s^{Y_2}] \\
    &= E[s^{Y_1}]E[s^{Y_2}] \\
    &= \Big(\frac{ps}{1-qs}\Big)^{r_1} \times \Big(\frac{ps}{1-qs}\Big)^{r_2} \\
    &= \Big(\frac{ps}{1-qs}\Big)^{r_1+r_2}
\end{align*}
これは，NB(r_1+r_2, p) に一致する．

多項分布

$k (\geq 2)$ 個の結果 $1,\dots,k$ のいずれか $1$ つが起こる試行を考える．結果 $j (1 \leq j \leq k)$ が起こる確率を $p_j (p_1 > 0, \dots , p_k > 0, p_1 + \cdots + p_k = 1)$ とする．この試行を独立に $n$ 回行う時，結果 $j$ が起こる回数を $Y_j$ とする．^[18]このとき， $\bm{Y} \coloneqq (Y_1, \dots, Y_k)$ の従う分布を多項分布とよび， $M(n;p_1, \dots, p_k)$ と表す．常に $Y_1 + \cdots + Y_k = n$ が成り立つことに注意する．
　また特に $k=2$ のときには， $\bm{Y} = (Y_1, Y_2) = (Y_1, n - Y_1) \sim M(n; p_1, 1-p_1)$ と1対1に対応する $Y_1$ の分布は二項分布 $Bin(n, p_1)$ であるので，多項分布は二項分布の一般化と考えることができる．
　確率関数は，

\begin{equation} \begin{split} P(Y_1 = y_1, \dots, Y_k = y_k) = \frac{n!}{y_1! \cdots y_k!} p_1^{y_1} \cdots p_k^{y_k}, \\ y_j \in \{0, 1, \dots, n\} (1 \leq j \leq k), \quad y_1 + \cdots + y_k = n \end{split} \end{equation}

である．これは，二項分布の確率関数の場合と同様の考え方でわかる．つまり，独立な $n$ 回の試行のうち，結果 $j$ の回数が $y_j (1 \leq j \leq k)$ となるような結果の列を考えた時，そのような特定の列が得られる確率が $p_1^{y_1} \cdots p_k^{y_k}$ であり，また，そのような結果の総列が ${}_{n} \mathrm{C}_{y_1} \times {}_{n-y_1} \mathrm{C}_{y_2} \times \cdots \times {}_{n-y_1- \cdots - n-y_{k-1}} \mathrm{C}_{y_k} = \frac{n!}{y_1! \cdots y_k!} p_1^{y_1}$ であることからわかる．

(42)確率関数になることの証明

多項定理[19]を用いて，1 = (p_1 + \cdots + p_k)^n を展開すると，

\begin{align*}
    1 &= (p_1 + \cdots + p_k)^n \\
    &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> \frac{n!}{y_1! \cdots y_j \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 0}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k}
\end{align*}
\sum\limits_{y_1 = 0}^{n - y_j} \cdots \sum\limits_{y_j = 0}^{n} \cdots \sum\limits_{y_k = 0}^{n - \sum y_j} は，P(Y_1 = y_1, \dots, Y_k = y_k) となる組み合わせの総和であるから，全確率が 1 になることが示された．

　 $M(n; p_1, \dots, p_k)$ の期待値，分散，共分散は

\begin{align} E[Y_j] &= np_j, \quad j=1, \dots, k \\ V[Y_j] &= np_j(1-p_j), \quad j=1, \dots, k \\ Cov[Y_j, Y_{j^\prime}] &= -np_jp_{j^\prime}, \quad j \neq j^\prime \end{align}

となる．

(43)の証明

①期待値の定義から求める．

\begin{align*}
    E[Y_j] &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> y_j p(y_1, \dots, y_j, \dots, y_k) \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 0}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} y_j \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} y_j \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \quad(\because y_j=0のとき，y_j \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} = 0) \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{n(n-1)!}{y_1! \cdots (y_j-1)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} p_j \cdot \frac{n(n-1)!}{y_1! \cdots (y_j-1)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j-1} \cdots p_k^{y_k} \\
    &= np_j \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{(n-1)!}{y_1! \cdots (y_j-1)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j-1} \cdots p_k^{y_k} \\
\end{align*}
ここで多項分布の条件である y_1 + \cdots + y_k = n の両辺から1を引く事を考えると

\begin{align*}
    & y_1 + \cdots y_k = n \\
    & y_1 + \cdots + (y_j-1) + \cdots + y_k = n-1 \\
    & y_1 + \cdots + \hat y_j + \cdots y_k = m \quad(\because y_j-1 = \hat y_j, n-1 = m)
\end{align*}
となり，これは試行回数 n から m=n-1 に変更した多項分布を考えることを意味する．

\begin{align*}
    \therefore E[Y_j] &= np_j \> \sum\limits_{\substack{y_1 + \cdots + \hat y_j + \cdots + y_k = m \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> \frac{m!}{y_1! \cdots \hat y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{\hat y_j} \cdots p_k^{y_k} \\ \\
    &= np_j \quad (\because \sum\limits_{\substack{y_1 + \cdots + \hat y_j + \cdots + y_k = m \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> \frac{m!}{y_1! \cdots \hat y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{\hat y_j} \cdots p_k^{y_k} = 1)
\end{align*}
②二項分布から考える．

Y_j = y_j となる確率は，「Y_j が起こらない」という事象をひとまとめにして扱うと，{}_{n} \mathrm{C}_{y_j} p_j^{y_j} (1-p_j)^{n-y_j} である．これは Y_j が（パラメータ n, p_j の）二項分布に従うことに他ならない．Y_j = y_j となる確率の期待値は，二項分布の期待値と同じ形になるので np_j である．


③ n 回ある試行のうち，l 回目の 1 試行から考える

n 回ある試行のうち，l 回目の 1 試行に関する確率変数 \bm{X_l} = (X_{l1}, \dots, X_{lj}, \dots, X_{lk}), \quad  l=1, \dots, n を定義する．このとき，独立に n 回の試行を行う多項分布 Y = (Y_1, \dots, Y_j, \dots, Y_k) は X_l を用いて \bm{Y} = \bm{X_1} + \cdots + \bm{X_l} + \cdots + \bm{X_n} と表されると考えて良い．つまり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} と考えて良い．まずは E[X_{lj}] を求めるが，j 以外の結果をひとまとめにすると，X_{lj} \sim Bin(1, p_j) がわかるので

\begin{align*}
    E[X_{lj}] &= 1 \times P(X_{lj} = 1) + 0 \times P(X_{lj} \neq 1) \\
    &= 1 \times p_j + 0 \times (1 - p_j) \\
    &= p_j
\end{align*}
となり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} から E[Y_j] を求める．

\begin{align*}
    E[Y_j] &= E[X_{1j} + \cdots + X_{lj} + \cdots + X_{nj}] \\
    &= E[\sum_{l=1}^{n} X_{lj}] \\
    &= \sum_{l=1}^{n} E[X_{lj}] \quad(\because (2)式) \\
    &= np_j
\end{align*}

(44)の証明

① E[Y_j(Y_j-1)] を求め，V[Y] = E[Y_j(Y_j-1)] + E[Y_j] - (E[Y_j])^2 を計算する．

\begin{align*}
    E[Y_j^2] &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> y_j(y_j-1) p(y_1, \dots, y_j, \dots, y_k) \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 0}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} y_j(y_j-1) \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 2}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} y_j(y_j-1) \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \quad(\because y_j=0, 1のとき，y_j \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} = 0) \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{n(n-1)(n-2)!}{y_1! \cdots (y_j-2)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} p_j^2 \cdot \frac{n(n-1)(n-2)!}{y_1! \cdots (y_j-2)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j-2} \cdots p_k^{y_k} \\
    &= n(n-1)p_j^2 \sum_{y_1 = 0}^{n - y_j} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{(n-2)!}{y_1! \cdots (y_j-2)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j-2} \cdots p_k^{y_k} \\
\end{align*}
ここで多項分布の条件である y_1 + \cdots + y_k = n の両辺から2を引く事を考えると

\begin{align*}
    & y_1 + \cdots + y_k = n \\
    & y_1 + \cdots + (y_j-2) + \cdots y_k = n-2 \\
    & y_1 + \cdots + \hat y_j + \cdots y_k = m \quad(\because y_j-2 = \hat y_j, n-2 = m)
\end{align*}
となり，これは試行回数 n から m=n-2 に変更した多項分布を考えることを意味する．

\begin{align*}
    E[Y_j(Y_j-1)] &= n(n-1)p_j^2 \> \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = m \\ y_1, \dots, \hat y_j, \dots, y_k \geq 0}} \> \frac{m!}{y_1! \cdots \hat y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{\hat y_j} \cdots p_k^{y_k} \\ \\
    &= n(n-1)p_j^2 \quad (\because \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = m \\ y_1, \dots, \hat y_j, \dots, y_k \geq 0}} \> \frac{m!}{y_1! \cdots \hat y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{\hat y_j} \cdots p_k^{y_k} = 1) \\
    \\
    \therefore V[Y_j] &= E[Y_j(Y_j-1)] + E[Y_j] - (E[Y_j])^2 \\
    &= n(n-1)p_j^2 + np_j - (np_j)^2 \\
    &= np_j(1 - p_j)
\end{align*}
②二項分布から考える．

Y_j = y_j となる確率は，「Y_j が起こらない」という事象をひとまとめにして扱うと，{}_{n} \mathrm{C}_{y_j} p_j^{y_j} (1-p_j)^{n-y_j} である．これは Y_j が（パラメータ n, p_j の）二項分布に従うことに他ならない．Y_j = y_j となる確率の分散は，二項分布の期待値と同じ形になるので np_j(1 - p_j) である．


③ n 回ある試行のうち，l 回目の 1 試行から考える

n 回ある試行のうち，l 回目の 1 試行に関する確率変数 \bm{X_l} = (X_{l1}, \dots, X_{lj}, \dots, X_{lk}), \quad  l=1, \dots, n を定義する．このとき，独立に n 回の試行を行う多項分布 Y = (Y_1, \dots, Y_j, \dots, Y_k) は X_l を用いて \bm{Y} = \bm{X_1} + \cdots + \bm{X_l} + \cdots + \bm{X_n} と表されると考えて良い．つまり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} と考えて良い．j 以外の結果をひとまとめにすると，X_{lj} \sim Bin(1, p_j) がわかるので，V[X_{lj}^2] をまずは求める．

\begin{align*}
    E[X_{lj}^2] &= 1^2 \times P(X_{lj} = 1) + 0^2 \times P(X_{lj} \neq 1) \\
    &= 1 \times p_j + 0 \times (1 - p_j) \\
    &= p_j \\
    \therefore V[X_{lj}] &= E[X_{lj}^2] - (E[X_{lj}])^2 \\
    &= p_j - (p_j)^2 \\
    &= p_j(1 - p_j)
\end{align*}
となり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} から V[Y_j] を求める．

\begin{align*}
    V[Y_j] &= V[X_{1j} + \cdots + X_{lj} + \cdots + X_{nj}] \\
    &= V[\sum_{l=1}^{n} X_{lj}] \\
    &= \sum_{l=1}^{n} V[X_{lj}] \quad(\because lについては独立なので(7)式) \\
    &= np_j(1 - p_j)
\end{align*}

(45)の証明

① E[Y_jY_{j^\prime}], j \neq j^\prime を求め，Cov[Y_j, Y_{j^\prime}] = E[Y_jY_{j^\prime}] - E[Y_j]E[Y_{j^\prime}], j \neq j^\prime を計算する．

\begin{align*}
    E[Y_jY_{j^\prime}] &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_{j^\prime} + \cdots + y_{j^\prime} + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_{j^\prime}, \dots, y_k \geq 0}} \> y_jy_{j^\prime} p(y_1, \dots, y_j, \dots, y_{j^\prime}, \dots, y_k) \\
    &= \sum_{y_1 = 0}^{n - y_j - y_{j^\prime}} \cdots \sum_{y_j = 0}^{n} \cdots \sum_{y_{j^\prime} = 0}^{n - y_j} \cdots \sum_{y_k = 0}^{n - \sum y_j} y_jy_{j^\prime} \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_{j^\prime}! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_j^{y_{j^\prime}} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j - y_{j^\prime}} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_{j^\prime} = 1}^{n - y_j} \cdots \sum_{y_k = 0}^{n - \sum y_j} y_jy_{j^\prime} \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_{j^\prime}! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_j^{y_{j^\prime}} \cdots p_k^{y_k} \quad(\because y_j = 0, y_{j^\prime} = 0 のとき，y_jy_{j^\prime} \cdot \frac{n!}{y_1! \cdots y_j! \cdots y_{j^\prime}! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_j^{y_{j^\prime}} \cdots p_k^{y_k} = 0) \\
    &= \sum_{y_1 = 0}^{n - y_j - y_{j^\prime}} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_{j^\prime} = 1}^{n - y_j} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{n(n-1)(n-2)!}{y_1! \cdots (y_j-1)! \cdots (y_{j^\prime}-1)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_j^{y_{j^\prime}} \cdots p_k^{y_k} \\
    &= \sum_{y_1 = 0}^{n - y_j - y_{j^\prime}} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_{j^\prime} = 1}^{n - y_j} \cdots \sum_{y_k = 0}^{n - \sum y_j} p_j p_{j^\prime} \frac{n(n-1)(n-2)!}{y_1! \cdots (y_j-1)! \cdots (y_{j^\prime}-1)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j-1} \cdots p_j^{y_{j^\prime}-1} \cdots p_k^{y_k} \\
    &= n(n-1)p_j p_{j^\prime} \sum_{y_1 = 0}^{n - y_j - y_{j^\prime}} \cdots \sum_{y_j = 1}^{n} \cdots \sum_{y_{j^\prime} = 1}^{n - y_j} \cdots \sum_{y_k = 0}^{n - \sum y_j} \frac{(n-2)!}{y_1! \cdots (y_j-1)! \cdots (y_{j^\prime}-1)! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j-1} \cdots p_j^{y_{j^\prime}-1} \cdots p_k^{y_k} \\
\end{align*}
ここで多項分布の条件である y_1 + \cdots + y_k = n の両辺から2を引く事を考えると

\begin{align*}
    & y_1 + \cdots + y_k = n \\
    & y_1 + \cdots + (y_j-1) \cdots + (y_{j^\prime}-1) + \cdots y_k = n-2 \\
    & y_1 + \cdots + \hat y_j + \cdots + \hat y_{j^\prime} + \cdots y_k = m \quad(\because y_j-1 = \hat y_j, y_{j^\prime}-1 = \hat y_{j^\prime}, n-2 = m)
\end{align*}
となり，これは試行回数 n から m=n-2 に変更した多項分布を考えることを意味する．

\begin{align*}
    E[Y_jY_{j^\prime}] &= n(n-1)p_j p_{j^\prime} \sum\limits_{\substack{y_1 + \cdots + \hat y_j + \cdots + \hat y_{j^\prime} + \cdots + y_k = m \\ y_1, \dots, \hat y_j, \dots, \hat y_{j^\prime} \dots, y_k \geq 0}} \> p(y_1, \dots, \hat y_j, \dots, \hat y_{j^\prime}, \dots, y_k) \\
    &= n(n-1)p_j p_{j^\prime} \quad(\because \sum\limits_{\substack{y_1 + \cdots + \hat y_j + \cdots + \hat y_{j^\prime} + \cdots + y_k = m \\ y_1, \dots, \hat y_j, \dots, \hat y_{j^\prime} \dots, y_k \geq 0}} \> p(y_1, \dots, \hat y_j, \dots, \hat y_{j^\prime}, \dots, y_k) = 0) \\
    \\
    \therefore Cov[Y_j, Y_{j^\prime}] &= E[Y_jY_{j^\prime}] - E[Y_j]E[Y_{j^\prime}] \\
    &= n(n-1)p_j p_{j^\prime} - (np_j)(np_{j^\prime}) \\
    &= n^2p_j p_{j^\prime} - np_j p_{j^\prime} - n^2p_j p_{j^\prime} \\
    &= -np_j p_{j^\prime}
\end{align*}
② Z = Y_j + Y_{j^\prime} \sim Bin(n, p_j+p_{j^\prime}), \quad j \neq j^\prime の二項分布から考える．

Y_j かつ Y_{j^\prime} が起こる事象をひとまとめにして Z = Y_j + Y_{j^\prime} = y_j + y_{j^\prime} = z となる確率を考え，「Y_j かつ Y_{j^\prime} が起こらない」という事象をひとまとめにして扱うと，{}_{n} \mathrm{C}_{z} (p_j + p_{j^\prime})^{z} (1-(p_j + p_{j^\prime}))^{n-z} である．これは Z = Y_j + Y_{j^\prime} が（パラメータ n, p_j + p_{j^\prime} の）二項分布に従うこと他ならない．Z = Y_j + Y_{j^\prime} = y_j + y_{j^\prime} = z となる確率の分散 V[Y_j + Y_{j^\prime}] を用いて Cov(Y_j, Y_{j^\prime}) を求める．

\begin{align*}
    & V[Y_j + Y_{j^\prime}] = V[Y_j] + V[Y_{j^\prime}] + 2Cov(Y_j, Y_{j^\prime}) \\
    \Leftrightarrow & 2Cov(Y_j, Y_{j^\prime}) = V[Y_j + Y_{j^\prime}] - (V[Y_j] + V[Y_{j^\prime}]) \\
    \Leftrightarrow & Cov(Y_j, Y_{j^\prime}) = \frac{1}{2} \times \{V[Y_j + Y_{j^\prime}] - (V[Y_j] + V[Y_{j^\prime}])\} \\
\end{align*}
上記の式変形より，Cov(Y_j, Y_{j^\prime}) を求める．V[Y_j + Y_{j^\prime}] = n(p_j + p_{j^\prime})(1-(p_j + p_{j^\prime}))，V[Y_j] = np_j(1-p_j)，V[Y_{j^\prime}] = np_{j^\prime}(1-p_{j^\prime}) であるから

\begin{align*}
    Cov(Y_j, Y_{j^\prime}) &= \frac{1}{2} \times \{n(p_j + p_{j^\prime})(1-(p_j + p_{j^\prime})) - (np_j(1-p_j) + np_{j^\prime}(1-p_{j^\prime}))\} \\
    &= \frac{n}{2} \times \{(p_j + p_{j^\prime}) - (p_j + p_{j^\prime})^2 - (p_j + p_{j^\prime}) + (p_j^2 + p_{j^\prime}^2)\} \\
    &= \frac{n}{2}(-2p_jp_{j^\prime}) \\
    &= -np_j p_{j^\prime}
\end{align*}
③ n 回ある試行のうち，l 回目の 1 試行から考える

n 回ある試行のうち，l 回目の 1 試行に関する確率変数 \bm{X_l} = (X_{l1}, \dots, X_{lj}, \dots, X_{lk}), \quad  l=1, \dots, n を定義する．このとき，独立に n 回の試行を行う多項分布 Y = (Y_1, \dots, Y_j, \dots, Y_k) は X_l を用いて \bm{Y} = \bm{X_1} + \cdots + \bm{X_l} + \cdots + \bm{X_n} と表されると考えて良い．つまり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} と考えて良い．j 以外の結果をひとまとめにすると，X_{lj} \sim Bin(1, p_j), X_{l{j^\prime}} \sim Bin(1, p_{j^\prime}) がわかるので，Cov[X_{lj}X_{l{j^\prime}}], j \neq j^\prime をまずは求める．

\begin{align*}
    E[X_{lj}X_{lj^\prime}] &= 1^2 \times P(X_{lj} = 1 \,\&\, X_{lj^\prime} = 1) + 1 \cdot 0 \times P(X_{lj} = 1 \,\&\, X_{lj^\prime} = 0) + 0 \cdot 1 \times P(X_{lj} = 0 \,\&\, X_{lj^\prime} = 1) + 0^2 \times P(X_{lj} = 0 \,\&\, X_{lj^\prime} = 0) \\
    &= 0 \quad(\because 試行回数は1回であり，X_{lj} = 1とX_{lj^\prime} = 1は同時に起こらないのでP(X_{lj} = 1 \,\&\, X_{lj^\prime} = 1) = 0) \\
    \\
    \therefore Cov[X_{lj}, X_{lj^\prime}] &= E[X_{lj}X_{lj^\prime}] - E[X_{lj}]E[X_{lj^\prime}] \\
    &= 0 - p_jp_{j^\prime} \\
    &= -p_jp_{j^\prime}
\end{align*}
となり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj}, \> Y_{j^\prime} = X_{1j^\prime} + \cdots + X_{lj^\prime} + \cdots + X_{nj^\prime} から Cov[Y_j, Y_{j^\prime}] を求める．

\begin{align*}
    Cov[Y_j, Y_{j^\prime}] &= Cov[X_{1j} + \cdots + X_{lj} + \cdots + X_{nj}, \>  X_{1j^\prime} + \cdots + X_{lj^\prime} + \cdots + X_{nj^\prime}] \\
    &= Cov(X_{1j}, X_{1j^\prime}) + Cov(X_{1j}, X_{2j^\prime}) + \cdots + Cov(X_{lj}, X_{lj^\prime}) + \cdots + Cov(X_{(n-1)j}, X_{(n-1)j^\prime}) + Cov(X_{nj}, X_{nj^\prime}) \\
    &= Cov(X_{1j}, X_{1j^\prime}) + \cdots + Cov(X_{lj}, X_{lj^\prime}) + \cdots + Cov(X_{nj}, X_{nj^\prime}) \quad(\because a \neq b のとき，独立試行なので Cov(X_{aj}, X_{bj^\prime}) = 0) \\
    &= nCov(X_{lj}, X_{lj^\prime}) \\
    &= -np_jp_{j^\prime}
\end{align*}

　また，確率母関数は以下のようになる．

\begin{align} G(s_1, \dots, s_j, \dots, s_k) = (s_1p_1 + \cdots + s_jp_j + \cdots + s_kp_k)^n \end{align}

確率変数が復数となる多次元確率分布においても確率母関数の概念は利用できる．整数値をとる同時多次元確率変数 \bm{X} = (X_1, \dots, X_k) の確率関数を \bm{p} (p_1, \dots, p_k) とし，\bm{s} = (s_1, \dots, s_k) を任意の実数とするとき，\bm{X} の確率母関数は以下のように定義される．

\begin{align*}
    G(\bm{s}) &= E[s_1^{X_1}s_2^{X_2} \cdots s_j^{X_j} \cdots s_k^{X_k}] \\
    &= \sum_{\bm{x}} s_1^{x_1}s_2^{x_2} \cdots s_j^{x_j} \cdots s_k^{x_k} \bm{p}
\end{align*}
確率母関数 G を s_j について微分すると，G^\prime(\bm{s}) = E[X_j(s_1^{X_1}s_2^{X_2} \cdots s_j^{X_j-1} \cdots s_k^{X_k})], G^{\prime\prime}(\bm{s}) = E[X_j(X_j-1)(s_1^{X_1}s_2^{X_2} \cdots s_j^{X_j-2} \cdots s_k^{X_k})] であるが，ここで \bm{s} = 1 とおくと

\begin{align*}
    G^\prime(\bm{s}) &= E[X_j] \\
    G^{\prime\prime}(\bm{s}) &= E[X_j(X_j-1)]
\end{align*}
を得る．

確率母関数を使った期待値と分散の計算

E[Y_j] = G^\prime(1) を用いて期待値を求める．

\begin{align*}
    E[Y_j] &= G^\prime(1) \\
    &= \left. \{(p_1s_1 + \cdots + p_js_j + \cdots + p_ks_k)^n\}^\prime \right|_{\bm{s=1}} \\
    &= \left. np_j(p_1s_1 + \cdots + p_js_j + \cdots + p_ks_k)^{n-1} \right|_{\bm{s=1}} \\
    &= np_j(p_1 + \cdots + p_j + \cdots + p_k)^{n-1} \\
    &= np_j \quad(\because p_1 + \cdots + p_j + \cdots + p_k = 1)
\end{align*}
E[Y_j(Y_j-1)] = G^{\prime\prime}(1) を用いて分散を求める．

\begin{align*}
    E[Y_j(Y_j-1)] &= G^{\prime\prime}(1) \\
    &= \left. \{(p_1s_1 + \cdots + p_js_j + \cdots + p_ks_k)^n\}^{\prime\prime} \right|_{\bm{s=1}} \\
    &= \left. n(n-1)p_j^2(p_1s_1 + \cdots + p_js_j + \cdots + p_ks_k)^{n-2} \right|_{\bm{s=1}} \\
    &= n(n-1)p_j^2 (p_1 + \cdots + p_j + \cdots + p_k)^{n-2} \\
    &= n(n-1)p_j^2 \quad(\because p_1 + \cdots + p_j + \cdots + p_k = 1) \\
    \\
    \therefore V[Y_j] &= E[Y_j(Y_j-1)] + E[Y_j] - (E[Y_j])^2 \\
    &= n(n-1)p_j^2 + np_j - (np_j)^2 \\
    &= np_j(1-p_j)
\end{align*}

(46)の証明

①確率母関数の定義から求める．

\begin{align*}
    G(\bm{s}) &= G(s_1, \dots, s_j, \dots, s_k) \\
    &= E[s_1^{Y_1}s_2^{X_2} \cdots s_j^{Y_j} \cdots s_k^{Y_k}] \\
    &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> s_1^{y_1} \cdots s_j^{y_j} \cdots s_k^{y_k} \, p(y_1, \dots, y_j, \dots, y_k) \\
    &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> s_1^{y_1} \cdots s_j^{y_j} \cdots s_k^{y_k} \, \frac{n!}{y_1! \cdots y_j! \cdots y_k!} p_1^{y_1} \cdots p_j^{y_j} \cdots p_k^{y_k} \\
    &= \sum\limits_{\substack{y_1 + \cdots + y_j + \cdots + y_k = n \\ y_1, \dots, y_j, \dots, y_k \geq 0}} \> \frac{n!}{y_1! \cdots y_j! \cdots y_k!} (s_1p_1)^{y_1} \cdots (s_jp_j)^{y_j} \cdots (s_kp_k)^{y_k} \\
    &= (s_1p_1 + \cdots + s_jp_j + \cdots + s_kp_k)^n \quad(\because 多項定理)
\end{align*}
②二項分布から考える．

Y_j = y_j となる確率は，「Y_j が起こらない」という事象をひとまとめにして扱うと，{}_{n} \mathrm{C}_{y_j} p_j^{y_j} (1-p_j)^{n-y_j} である．これは Y_j が（パラメータ n, p_j の）二項分布に従うことに他ならない．Y_j = y_j となる確率の確率母関数は，二項分布の確率母関数と同じ形になるので \{p_js + (1- p_j)\}^n である．[20]


③ n 回ある試行のうち，l 回目の 1 試行から考える

n 回ある試行のうち，l 回目の 1 試行に関する確率変数 X_l = (X_{l1}, \dots, X_{lj}, \dots, X_{lk}), \quad  l=1, \dots, n を定義する．このとき，独立に n 回の試行を行う多項分布 Y = (Y_1, \dots, Y_j ,\dots Y_{j^\prime}, \dots, Y_k) は X_l を用いて Y = X_1 + \cdots + X_l + \cdots + X_n と表されると考えて良い．つまり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} と考えて良い．j 以外の結果をひとまとめにすると，X_{lj} \sim Bin(1, p_j) がわかるので，G_{X_{l1}, \dots, X_{lj}, \dots, X_{lK}}(\bm{s}) をまずは求める．

\begin{align*}
    G_{X_{l1}, \dots, X_{lj}, \dots, X_{lK}}(\bm{s}) &= E[s_1^{X_l1} \cdots s_j^{X_lj} \cdots s_k^{X_lk}] \\
    &= \sum\limits_{\substack{x_{l1} + \cdots + \hat x_{lj} + \cdots + x_{lk} = n \\ x_{l1}, \dots, x_{lj}, \dots, x_{lk} \geq 0}} \> s_1^{x_1}s_2^{x_2} \cdots s_j^{x_j} \cdots s_k^{x_k} \bm{p} \\
    &= (s_1^1 s_2^0 \cdots s_k^0) \times p_1 \cdots (s_1^0 s_2^0 \cdots s_j^1 \cdots s_k^0) \times p_j \cdots (s_1^0 s_2^0 \cdots s_j^0 \cdots s_k^1) \times p_k \\
    &= s_1p_1 + \cdots + s_jp_j + \cdots s_kp_k
\end{align*}
となり，Y_j = X_{1j} + \cdots + X_{lj} + \cdots + X_{nj} から G(\bm{s}) から G_{Y_1, \dots, Y_j, \dots, Y_k}(\bm{s}) を求める．

\begin{align*}
    G_{Y_1, \dots, Y_j, \dots, Y_k}(\bm{s}) &= E[s_1^{Y_1} \cdots s_j^{Y_j} \cdots s_k^{Y_k}] \\
    &= E[s_1^{\sum_{l=1}^n X_{l1}} \cdots s_j^{\sum_{l=1}^n X_{lj}} \cdots s_k^{\sum_{l=1}^n X_{lk}}] \\
    &= E[\prod_{l=1}^n s_1^{X_l1} \cdots \prod_{l=1}^n s_j^{X_lj} \cdots \prod_{l=1}^n s_k^{X_lk}] \\
    &= E[\prod_{l=1}^n s_1^{X_l1} \cdots s_j^{X_lj} \cdots s_k^{X_l1k}] \\
    &= \prod_{l=1}^n E[s_1^{X_l1} \cdots s_j^{X_lj} \cdots s_k^{X_l1k}] \quad(\because lについては独立なので(4)式) \\
    &= (s_1p_1 + \cdots + s_jp_j + \cdots + s_kp_k)^n
\end{align*}

　さらに，多項分布は再生成と呼ばれる性質がある．

再生成を持つことの証明

独立な二つの確率変数 $\bm{Y}, \bm{Z}$ を考える． $\bm{Y} \sim M(n_1; p_1, \dots, p_k)$ , $\bm{Z} \sim M(n_2; p_1, \dots, p_k)$ にそれぞれ従うとき， $\bm{Y} + \bm{Z}$ の確率母関数を計算する．この時，確率母関数が同じ形になっていることを示す．

\begin{align*} G_{\bm{Y} + \bm{Z}} (\bm{s}) &= E[\bm{s}^{\bm{Y}+\bm{Z}}] \\ &= E[\bm{s}^{\bm{Y}}\bm{s}^{\bm{Z}}] \\ &= E[\bm{s}^{\bm{Y}}]E[\bm{s}^{\bm{Z}}] \\ &= (s_1p_1 + \cdots + s_jp_j + \cdots + s_kp_k)^{n_1} \times (s_1p_1 + \cdots + s_jp_j + \cdots + s_kp_k)^{n_2} \\ &= (s_1p_1 + \cdots + s_jp_j + \cdots + s_kp_k)^{n_1+n_2} \end{align*}

謝辞

本記事を執筆するにあたって，一緒に毎週勉強会を実施している3名には，わからないときにはいつも有益な助言をいただきました．特にY.K.君は数学的に正しいか，また読者にとってわかりやすいかなど色んな視点でアドバイスいただき，大変感謝しております．

参考資料

期待値と分散に関する公式一覧
共分散の性質の一覧と証明
日本統計学会編，統計学実践ワークブック，第5章離散型確率分布
離散型確率分布の数式まとめ（ベルヌーイ分布、二項分布、ポアソン分布、幾何分布 etc）
ベルヌーイ試行の定義を丁寧にわかりやすく解説
ポアソン分布の意味と平均・分散
負の二項分布の定義と例と性質まとめ
独立と無相関の意味と違いについて
3-4. 多項分布
多項分布の意味と平均，分散，共分散などの計算
【徹底解説】多項分布とは

脚注

期待値と同様にロピタルの定理を用いて導くことができるが，計算が煩雑になるため割愛する． ↩︎
次の3つの条件を満たす試行である．1.試行の結果は成功または失敗のいずれかである，2.各試行は独立である，3.成功確率 $p$ ，失敗確率 $1-p$ は試行を通じて一定である． ↩︎
同じベルヌーイ分布に従う2つの独立な確率変数の和は，二項分布に従うとしても良い． ↩︎
$n$ を正の整数とするとき， $(a+b)^n = \sum\limits_{k=0}^n {}_n \mathrm{C}_k a^k b^{n-k}$ が成り立つ． ↩︎
成功確率が異なる二項分布では，再生性が成り立たない． ↩︎
$e^x = \sum\limits_{k=0}^{\infty}\frac{x^k}{k!} = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \dots$ において， $x=\lambda$ を代入すると， $e^{\lambda} = \sum\limits_{k=0}^{\infty}\frac{\lambda^k}{k!}$ となる. ↩︎
極限をとる前の二項分布 $Bin(n, p)$ の期待値 $np = \lambda$ と分散 $np(1-p) = \lambda(1 - (\lambda/n))$ の極限（ともに $\lambda$ ）を考えて予想できる． ↩︎
$\frac{1}{1-x} = \sum\limits_{n=0}^{\infty} x^n$ のマクローリン展開において，両辺をxで微分すると， $\frac{1}{(1-x)^2} = \sum\limits_{n=1}^{\infty} nx^{n-1}$ となる． ↩︎
$\frac{1}{1-x} = \sum\limits_{n=0}^{\infty} x^n$ のマクローリン展開において，両辺をxで2回微分すると， $\frac{2}{(1-x)^3} = \sum\limits_{n=2}^{\infty} (n-1)nx^{n-2}$ となる． ↩︎
$a$ と $b$ を変数に持つ恒等式であるから係数比較しても良いが， $2/N < n$ のときは ${}_N \mathrm{C}_{N-n}$ で考えるので， $n=N-n$ となる．あるいは $N-M < n-k$ のとき， ${}_{N-M} \mathrm{C}_{n-k} = 0$ として考える． ↩︎
超幾何関数を用いて表される． ↩︎
$r$ 個の◯と $n-1$ 個の仕切りを一列に並べる方法に1対1対応する． ↩︎
$\stackrel{\mathrm{d}}{=}$ は両辺の確率分布が等しいことを表す． ↩︎
今負の二項分布は「 $r$ 回目の成功が起こった時点で, それまでに起こった失敗の回数 $Y$ の分布」としているので，幾何分布も同様に「はじめて成功するまでに起こる失敗の回数の分布」とした． ↩︎
$i.i.d.$ ならば無相関であることを利用する． ↩︎
$(1+x)^\alpha = \sum\limits_{k=0}^{\infty} {}_{\alpha} \mathrm{C}_{k} x^k = 1 + \frac{\alpha}{1!}x^1 + \frac{\alpha(\alpha-1)}{2!}x^2 + \cdots + \frac{\alpha(\alpha-1) \cdots (\alpha-k+1)}{k!}x^k + \cdots$ において， $x=-qs, \alpha = -r$ を代入すると， $(1-qs)^{-r}$ となる． ↩︎
成功確率が異なる負の二項分布では，再生性が成り立たない． ↩︎
サイコロの具体例で考えるとわかりやすい．「歪んだ六面サイコロを $10$ 回振った時に，それぞれの面が出る確率」とした場合，パラメータ $n=10$ , $P=p_1, \dots, p_6$ の多項分布に従う． $n$ は試行回数であり， $p_1, \dots, p_6$ はサイコロのそれぞれの目が出る確率を指す． ↩︎
$(a + b + c + d + \cdots)^n = \sum\limits_{\substack{k + l + m + r \cdots = n \\ k,l,m,r, \cdots \geq 0}} \> \frac{n!}{k!l!m!r!\cdots} a^k b^l c^m d^r \cdots$ を多項定理と呼ぶ． ↩︎
式(46)において，ある $y_j$ に対する確率母関数 $E[s_j^{y_j}]$ を求めたい場合は， $s_1 = \cdots = s_{j-1} = s_{j+1} = \cdots = s_k = 1$ とすると同じ形を得られる事が分かる． ↩︎

概要

抑えておく基本事項

期待値

定義

期待値に関する公式

分散

定義

分散に関する公式

共分散

定義

共分散に関する公式

確率母関数

定義

使い方

主な離散型確率分布

離散一様分布

ベルヌーイ分布

二項分布

ポアソン分布

幾何分布

超幾何分布

負の二項分布

多項分布

謝辞

参考資料

Discussion