🎉

【統計】混合分布の期待値と分散 一般化

2024/04/17に公開

はじめに

今回は一般化した n 種類の混合分布について、期待値と分散を導出します。
混合分布とは複数の確率分布が混ざった分布のことです。
例えば、山が2つある分布は、平均の異なる2種類の正規分布が混ざり合った混合分布になります。

前置き

以下のように混合分布の確率変数 X を定義します。

  • X_{1},\ ...\ ,X_{n} を互いに独立な確率変数とし、確率関数を順に f_{1}(x),\ ...\ ,f_{n}(x) 、平均を順に \mu_{1},\ ...\ ,\mu_{n} 、分散を順に \sigma_{1}^{2},\ ...\ ,\sigma_{n}^{2} とする
  • X を混合分布の確率変数とし、確率変数 X_{i}\ (i=1,\ ...\ ,n) の混合率(割合)を p_{i}\ (\sum_{i=1}^{n}p_{i}=1) とする

このとき、混合分布 X の確率関数 f(x) は以下のように表されます。

\begin{aligned} f(x)=\sum_{i=1}^{n}p_{i}f_{i}(x) \end{aligned}

また、X の期待値を E[X] 、分散を V[X] とすると、

\begin{aligned} E[X] &= \sum_{i=1}^{n} p_{i}\mu_{i} \\ E[g(X)] &= \sum_{i=1}^{n} p_{i}E[g(X_{i})] \\ V[X] &= \sum_{i=1}^{n} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \\ &= \sum_{i=1}^{n} p_{i}\sigma_{i}^{2} + \dfrac{1}{2}\sum_{i=1}^{n} \sum_{j=1}^{n} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \end{aligned}

と表せます。

導出方法については、期待値については [1]、分散については [2] をご覧ください。

分散についてはやや難しめですが、n=3 の場合で解ければ、一般化した n の場合も解けます。

[1] 混合分布の期待値 E[X],E[g(X)]

導出方法がほぼ同じなので、E[g(X)] を先に示し、次に E[X] を導出します。

\begin{aligned} E[g(X)] &=\int_{-\infty}^{\infty} g(x)f(x) dx \\ &=\int_{-\infty}^{\infty} g(x) \sum_{i=1}^{n} p_{i}f_{i}(x) dx\\ &= \sum_{i=1}^{n} p_{i} \int_{-\infty}^{\infty} g(x)f_{i}(x) dx\\ &= \sum_{i=1}^{n} p_{i}E[g(X_{i})] \\ \end{aligned}
\begin{aligned} E[X] &= \sum_{i=1}^{n} p_{i}E[X_{i}] \\ &= \sum_{i=1}^{n} p_{i}\mu_{i} \\ \end{aligned}

[2] 混合分布の分散 V[X]

方針

V[X]=E[X^{2}]-(E[X])^{2} から変形します。\sum_{i=1}^{n}p_{i} =1 を使用して、\mu_{i}^{2} の項を分解し、 (\mu_{i}-\mu_{j})^{2} の形に持っていきます。

導出

\begin{aligned} V[X] &=E[X^{2}] -\left( E[X] \right)^{2} \\ &=\sum_{i=1}^{n} p_{i}E[X_{i}^{2}] -\left( \sum_{i=1}^{n} p_{i}\mu_{i} \right)^{2} \\ &=\sum_{i=1}^{n} p_{i}(\mu_{i}^{2}+ \sigma_{i}^{2}) -\left( \sum_{i=1}^{n} p_{i}\mu_{i} \right)^{2} \\ &=\sum_{i=1}^{n} p_{i}\sigma_{i}^{2} + \sum_{i=1}^{n} p_{i}\mu_{i}^{2} -\left( \sum_{i=1}^{n} p_{i}^{2}\mu_{i}^{2} +2\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}\mu_{i}\mu_{j} \right) \\ \end{aligned}

ここで、p_{i}\mu_{i}^{2} -p_{i}^{2}\mu_{i}^{2} を以下のように変形する。

\begin{aligned} p_{i}\mu_{i}^{2} -p_{i}^{2}\mu_{i}^{2} &=p_{i}\mu_{i}^{2}(1- p_{i}) \\ &=p_{i}\mu_{i}^{2} (p_{1} + \cdots +p_{i-1} + p_{i+1}+ \cdots + p_{n}) \\ &=p_{1}p_{i}\mu_{i}^{2}+\cdots + p_{i-1}p_{i}\mu_{i}^{2} + p_{i+1}p_{i}\mu_{i}^{2} +\cdots + p_{n}p_{i}\mu_{i}^{2}\\ \end{aligned}

上式を利用して \mu_{i}^{2} -2\mu_{i}\mu_{j} + \mu_{j}^{2} = (\mu_{i}-\mu_{j})^{2} の形に変形していく。

\begin{aligned} \sum_{i=1}^{n}& p_{i}\mu_{i}^{2} -\left( \sum_{i=1}^{n} p_{i}^{2}\mu_{i}^{2} +2\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}\mu_{i}\mu_{j} \right) \\ &=p_{1}p_{2}\mu_{1}^{2}-2p_{1}p_{2}\mu_{1}\mu_{2}+p_{1}p_{2}\mu_{2}^{2}+ \cdots + p_{1}p_{n}\mu_{2}^{2}-2p_{1}p_{n}\mu_{1}\mu_{n}+p_{1}p_{n}\mu_{n}^{2} +\\ &\hspace{12pt} p_{2}p_{3}\mu_{2}^{2}-2p_{2}p_{3}\mu_{2}\mu_{3}+p_{2}p_{3}\mu_{3}^{2}+ \cdots + p_{2}p_{n}\mu_{2}^{2}-2p_{2}p_{n}\mu_{2}\mu_{n}+p_{2}p_{n}\mu_{n}^{2} \\ & \hspace{11pt} + \cdots +\\ &\hspace{12pt} p_{n-1}p_{n}\mu_{n-1}^{2}-2p_{n-1}p_{n}\mu_{n-1}\mu_{n}+p_{n-1}p_{n}\mu_{n}^{2} \\ &=\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} (p_{i}p_{j}\mu_{i}^{2}-2p_{i}p_{j}\mu_{i}\mu_{j}+p_{i}p_{j}\mu_{j}^{2}) \\ &=\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i}^{2}-2\mu_{i}\mu_{j}+\mu_{j}^{2}) \\ &=\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i} -\mu_{j})^{2} \\ \end{aligned}

となる。以上より、

\begin{aligned} V[X] &=\sum_{i=1}^{n} p_{i}\sigma_{i}^{2} + \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i} -\mu_{j})^{2} \\ \end{aligned}

別解

帰納法による証明です。n=k から n=k+1 の成立証明については X_{k} 自体を混合分布と考え、 k+1 の項目を発現させます。

以下、証明です。

n=1 の場合は明らかに成立する。

n=k のとき、XX_{1},\ ...\ ,X_{k} の混合分布とし、確率変数 X_{i}(i=1,\ ...\ ,k) の混合率(割合)を p_{i} \ (\sum_{i=1}^{k}p_{i}=1)E[X_{i}]=\mu_{i} ,V[X_{i}]=\sigma_{i}^{2} とした場合、

\begin{aligned} V[X] &= \sum_{i=1}^{k} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k-1} \sum_{j=i+1}^{k} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \end{aligned}

が成立すると仮定する。

ここで X_{k} を確率変数 X_{k1}X_{k2} の混合分布とし、確率変数 X_{ki}(i=1,2) の割合を p_{ki}\ (p_{k1}+p_{k2}=1)E[X_{i}]=\mu_{ki} ,V[X_{ki}]=\sigma_{ki}^{2} とすると、

\begin{aligned} \mu_{k}=E[X_{k}] &= p_{k1} \mu_{k1}+ p_{k2} \mu_{k2} \\ \sigma_{k}^{2} = V[X_{k}] &= p_{k1} \sigma_{k1}^{2} + p_{k2} \sigma_{k2}^{2} +p_{k1}p_{k2}(\mu_{k1}-\mu_{k2})^{2} \end{aligned}

となる。

この場合 X の分散 V[X] については

\begin{aligned} V[X] &= \sum_{i=1}^{k} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k-1}\sum_{j=i+1}^{k} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \\ &= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2} +p_{k}p_{k2}\sigma_{k2}^{2} + p_{k}p_{k1}p_{k2} (\mu_{k1}-\mu_{k2})^{2} \\ &\hspace{12pt} +\sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} +\sum_{i=1}^{k-1} p_{i}p_{k}(\mu_{i}-\mu_{k})^{2}\\ \end{aligned}

ここで、(\mu_{i}-\mu_{k})^{2} については、

\begin{aligned} (\mu_{i}-\mu_{k})^{2} &=(\mu_{i}-p_{k1}\mu_{k1}-p_{k2}\mu_{k2})^{2} \\ &=\mu_{i}^{2} +p_{k1}^{2}\mu_{k1}^{2} + p_{k2}^{2}\mu_{k2}^{2} -2\mu_{i}p_{k1}\mu_{k1} -2\mu_{i}p_{k2}\mu_{k2} +2p_{k1}\mu_{k1}p_{k2}\mu_{k2} \\ &=(p_{k1}\mu_{i}^{2} -2p_{k1}\mu_{i}\mu_{k2} + p_{k1}\mu_{k1}^{2} ) +(p_{k2}\mu_{i}^{2} -2p_{k2}\mu_{i}\mu_{k2} + p_{k2}\mu_{k2}^{2} ) \ \ \ (\because 1=p_{k1}+p_{k2}) \\ &\hspace{12pt} - p_{k1}p_{k2}\mu_{k1}^{2} +2p_{k1}p_{k2}\mu_{k1}\mu_{k2} - p_{k1}p_{k2}\mu_{k2}^{2} \\ &\hspace{12pt} +p_{k1}p_{k2}\mu_{k1}^{2} + p_{k1}^{2}\mu_{k1}^{2} -p_{k1}\mu_{k1}^{2} +p_{k1}p_{k2}\mu_{k2}^{2} + p_{k2}^{2}\mu_{k2}^{2} -p_{k2}\mu_{k2}^{2}\\ &=p_{k1}(\mu_{i}- \mu_{k1})^{2} +p_{k2}(\mu_{i}-\mu_{k2} )^{2} -p_{k1}p_{k2}(\mu_{k1} - \mu_{k2})^{2}\\ &\hspace{12pt} +p_{k1}\mu_{k1}^{2}(p_{k1}+p_{k2}-1) + p_{k2}\mu_{k2}^{2}(p_{k1}+p_{k2}-1)\\ &=p_{k1}(\mu_{i}- \mu_{k1})^{2} +p_{k2}(\mu_{i}-\mu_{k2} )^{2} -p_{k1}p_{k2}(\mu_{k1} - \mu_{k2})^{2} \\ \end{aligned}

よって、

\begin{aligned} V[X] &= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2} +p_{k}p_{k2}\sigma_{k2}^{2} + p_{k}p_{k1}p_{k2} (\mu_{k1}-\mu_{k2})^{2} \\ &\hspace{12pt} +\sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} +\sum_{i=1}^{k-1} \left\{ p_{i}p_{k}p_{k1}(\mu_{i}-\mu_{k1})^{2} + p_{i}p_{k}p_{k2}(\mu_{i}-\mu_{k2})^{2} - p_{i}p_{k}p_{k1}p_{k2}(\mu_{k1}-\mu_{k2})^{2} \right\}\\ &= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2} +p_{k}p_{k2}\sigma_{k2}^{2} + \sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\ &\hspace{12pt} + \sum_{i=1}^{k-1} p_{i}p_{k}p_{k1}(\mu_{i}-\mu_{k1})^{2} +p_{k}p_{k1}p_{k2} (\mu_{k1}-\mu_{k2})^{2} (1-p_{1}-\cdots - p_{k-1}) +\sum_{i=1}^{k-1} p_{i}p_{k}p_{k2}(\mu_{i}-\mu_{k2})^{2} \\ &= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2} +p_{k}p_{k2}\sigma_{k2}^{2} + \sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\ &\hspace{12pt} + \sum_{i=1}^{k-1} p_{i}p_{k}p_{k1}(\mu_{i}-\mu_{k1})^{2} +p_{k}p_{k1}p_{k}p_{k2} (\mu_{k1}-\mu_{k2})^{2} +\sum_{i=1}^{k-1} p_{i}p_{k}p_{k2}(\mu_{i}-\mu_{k2})^{2} \\ \end{aligned}

p_{k}p_{k1},\mu_{k1},\sigma_{k1} を順に p_{k},\mu_{k},\sigma_{k} と再定義し、
p_{k}p_{k2},\mu_{k2},\sigma_{k2} を順に p_{k+1},\mu_{k+1},\sigma_{k+1} とすれば、

\begin{aligned} V[X] &= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}\sigma_{k}^{2} +p_{k+1}\sigma_{k+1}^{2} + \sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\ &\hspace{12pt} + \sum_{i=1}^{k-1} p_{i}p_{k}(\mu_{i}-\mu_{k})^{2} +p_{k}p_{k+1} (\mu_{k}-\mu_{k+1})^{2} +\sum_{i=1}^{k-1} p_{i}p_{k+1}(\mu_{i}-\mu_{k2})^{2} \\ &= \sum_{i=1}^{k+1} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k-1} \sum_{j=i+1}^{k} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} +\sum_{i=1}^{k} p_{i}p_{k+1}(\mu_{i}-\mu_{k2})^{2} \\ &= \sum_{i=1}^{k+1} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k} \sum_{j=i+1}^{k+1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\ \end{aligned}

以上より、n=k+1 の場合も成立する。

よって帰納法により、すべての n について

\begin{aligned} V[X] &= \sum_{i=1}^{n} p_{i}\sigma_{i}^{2} + \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \end{aligned}

が成立する。

Discussion