はじめに
今回は一般化した n 種類の混合分布について、期待値と分散を導出します。
混合分布とは複数の確率分布が混ざった分布のことです。
例えば、山が2つある分布は、平均の異なる2種類の正規分布が混ざり合った混合分布になります。
前置き
以下のように混合分布の確率変数 X を定義します。
-
X_{1},\ ...\ ,X_{n} を互いに独立な確率変数とし、確率関数を順に f_{1}(x),\ ...\ ,f_{n}(x) 、平均を順に \mu_{1},\ ...\ ,\mu_{n} 、分散を順に \sigma_{1}^{2},\ ...\ ,\sigma_{n}^{2} とする
-
X を混合分布の確率変数とし、確率変数 X_{i}\ (i=1,\ ...\ ,n) の混合率(割合)を p_{i}\ (\sum_{i=1}^{n}p_{i}=1) とする
このとき、混合分布 X の確率関数 f(x) は以下のように表されます。
\begin{aligned}
f(x)=\sum_{i=1}^{n}p_{i}f_{i}(x)
\end{aligned}
また、X の期待値を E[X] 、分散を V[X] とすると、
\begin{aligned}
E[X] &= \sum_{i=1}^{n} p_{i}\mu_{i} \\
E[g(X)] &= \sum_{i=1}^{n} p_{i}E[g(X_{i})] \\
V[X] &= \sum_{i=1}^{n} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \\
&= \sum_{i=1}^{n} p_{i}\sigma_{i}^{2} + \dfrac{1}{2}\sum_{i=1}^{n} \sum_{j=1}^{n} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}
\end{aligned}
と表せます。
導出方法については、期待値については [1]、分散については [2] をご覧ください。
分散についてはやや難しめですが、n=3 の場合で解ければ、一般化した n の場合も解けます。
[1] 混合分布の期待値 E[X],E[g(X)]
導出方法がほぼ同じなので、E[g(X)] を先に示し、次に E[X] を導出します。
\begin{aligned}
E[g(X)]
&=\int_{-\infty}^{\infty} g(x)f(x) dx \\
&=\int_{-\infty}^{\infty} g(x)
\sum_{i=1}^{n} p_{i}f_{i}(x) dx\\
&= \sum_{i=1}^{n} p_{i} \int_{-\infty}^{\infty} g(x)f_{i}(x) dx\\
&= \sum_{i=1}^{n} p_{i}E[g(X_{i})] \\
\end{aligned}
\begin{aligned}
E[X]
&= \sum_{i=1}^{n} p_{i}E[X_{i}] \\
&= \sum_{i=1}^{n} p_{i}\mu_{i} \\
\end{aligned}
[2] 混合分布の分散 V[X]
方針
V[X]=E[X^{2}]-(E[X])^{2} から変形します。\sum_{i=1}^{n}p_{i} =1 を使用して、\mu_{i}^{2} の項を分解し、 (\mu_{i}-\mu_{j})^{2} の形に持っていきます。
導出
\begin{aligned}
V[X]
&=E[X^{2}] -\left( E[X] \right)^{2} \\
&=\sum_{i=1}^{n} p_{i}E[X_{i}^{2}] -\left( \sum_{i=1}^{n} p_{i}\mu_{i} \right)^{2} \\
&=\sum_{i=1}^{n} p_{i}(\mu_{i}^{2}+
\sigma_{i}^{2}) -\left( \sum_{i=1}^{n} p_{i}\mu_{i} \right)^{2} \\
&=\sum_{i=1}^{n} p_{i}\sigma_{i}^{2} +
\sum_{i=1}^{n} p_{i}\mu_{i}^{2} -\left( \sum_{i=1}^{n} p_{i}^{2}\mu_{i}^{2} +2\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}\mu_{i}\mu_{j} \right) \\
\end{aligned}
ここで、p_{i}\mu_{i}^{2} -p_{i}^{2}\mu_{i}^{2} を以下のように変形する。
\begin{aligned}
p_{i}\mu_{i}^{2} -p_{i}^{2}\mu_{i}^{2}
&=p_{i}\mu_{i}^{2}(1- p_{i}) \\
&=p_{i}\mu_{i}^{2} (p_{1} + \cdots +p_{i-1} + p_{i+1}+ \cdots + p_{n}) \\
&=p_{1}p_{i}\mu_{i}^{2}+\cdots + p_{i-1}p_{i}\mu_{i}^{2} +
p_{i+1}p_{i}\mu_{i}^{2} +\cdots + p_{n}p_{i}\mu_{i}^{2}\\
\end{aligned}
上式を利用して \mu_{i}^{2} -2\mu_{i}\mu_{j} + \mu_{j}^{2} = (\mu_{i}-\mu_{j})^{2} の形に変形していく。
\begin{aligned}
\sum_{i=1}^{n}& p_{i}\mu_{i}^{2} -\left( \sum_{i=1}^{n} p_{i}^{2}\mu_{i}^{2} +2\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}\mu_{i}\mu_{j} \right) \\
&=p_{1}p_{2}\mu_{1}^{2}-2p_{1}p_{2}\mu_{1}\mu_{2}+p_{1}p_{2}\mu_{2}^{2}+ \cdots +
p_{1}p_{n}\mu_{2}^{2}-2p_{1}p_{n}\mu_{1}\mu_{n}+p_{1}p_{n}\mu_{n}^{2} +\\
&\hspace{12pt} p_{2}p_{3}\mu_{2}^{2}-2p_{2}p_{3}\mu_{2}\mu_{3}+p_{2}p_{3}\mu_{3}^{2}+ \cdots +
p_{2}p_{n}\mu_{2}^{2}-2p_{2}p_{n}\mu_{2}\mu_{n}+p_{2}p_{n}\mu_{n}^{2} \\
& \hspace{11pt} + \cdots +\\
&\hspace{12pt} p_{n-1}p_{n}\mu_{n-1}^{2}-2p_{n-1}p_{n}\mu_{n-1}\mu_{n}+p_{n-1}p_{n}\mu_{n}^{2} \\
&=\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} (p_{i}p_{j}\mu_{i}^{2}-2p_{i}p_{j}\mu_{i}\mu_{j}+p_{i}p_{j}\mu_{j}^{2}) \\
&=\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i}^{2}-2\mu_{i}\mu_{j}+\mu_{j}^{2}) \\
&=\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i} -\mu_{j})^{2} \\
\end{aligned}
となる。以上より、
\begin{aligned}
V[X]
&=\sum_{i=1}^{n} p_{i}\sigma_{i}^{2} +
\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i} -\mu_{j})^{2} \\
\end{aligned}
別解
帰納法による証明です。n=k から n=k+1 の成立証明については X_{k} 自体を混合分布と考え、 k+1 の項目を発現させます。
以下、証明です。
n=1 の場合は明らかに成立する。
n=k のとき、X を X_{1},\ ...\ ,X_{k} の混合分布とし、確率変数 X_{i}(i=1,\ ...\ ,k) の混合率(割合)を p_{i} \ (\sum_{i=1}^{k}p_{i}=1) 、 E[X_{i}]=\mu_{i} ,V[X_{i}]=\sigma_{i}^{2} とした場合、
\begin{aligned}
V[X] &= \sum_{i=1}^{k} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k-1} \sum_{j=i+1}^{k} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}
\end{aligned}
が成立すると仮定する。
ここで X_{k} を確率変数 X_{k1} と X_{k2} の混合分布とし、確率変数 X_{ki}(i=1,2) の割合を p_{ki}\ (p_{k1}+p_{k2}=1) 、 E[X_{i}]=\mu_{ki} ,V[X_{ki}]=\sigma_{ki}^{2} とすると、
\begin{aligned}
\mu_{k}=E[X_{k}] &= p_{k1} \mu_{k1}+ p_{k2} \mu_{k2} \\
\sigma_{k}^{2} = V[X_{k}] &= p_{k1} \sigma_{k1}^{2} + p_{k2} \sigma_{k2}^{2}
+p_{k1}p_{k2}(\mu_{k1}-\mu_{k2})^{2}
\end{aligned}
となる。
この場合 X の分散 V[X] については
\begin{aligned}
V[X]
&= \sum_{i=1}^{k} p_{i} \sigma_{i}^{2} +
\sum_{i=1}^{k-1}\sum_{j=i+1}^{k} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2} \\
&= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2}
+p_{k}p_{k2}\sigma_{k2}^{2} + p_{k}p_{k1}p_{k2} (\mu_{k1}-\mu_{k2})^{2} \\
&\hspace{12pt} +\sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}
+\sum_{i=1}^{k-1} p_{i}p_{k}(\mu_{i}-\mu_{k})^{2}\\
\end{aligned}
ここで、(\mu_{i}-\mu_{k})^{2} については、
\begin{aligned}
(\mu_{i}-\mu_{k})^{2}
&=(\mu_{i}-p_{k1}\mu_{k1}-p_{k2}\mu_{k2})^{2} \\
&=\mu_{i}^{2} +p_{k1}^{2}\mu_{k1}^{2} + p_{k2}^{2}\mu_{k2}^{2}
-2\mu_{i}p_{k1}\mu_{k1} -2\mu_{i}p_{k2}\mu_{k2} +2p_{k1}\mu_{k1}p_{k2}\mu_{k2} \\
&=(p_{k1}\mu_{i}^{2} -2p_{k1}\mu_{i}\mu_{k2} + p_{k1}\mu_{k1}^{2} )
+(p_{k2}\mu_{i}^{2} -2p_{k2}\mu_{i}\mu_{k2} + p_{k2}\mu_{k2}^{2} ) \ \ \ (\because 1=p_{k1}+p_{k2}) \\
&\hspace{12pt} - p_{k1}p_{k2}\mu_{k1}^{2} +2p_{k1}p_{k2}\mu_{k1}\mu_{k2} - p_{k1}p_{k2}\mu_{k2}^{2} \\
&\hspace{12pt} +p_{k1}p_{k2}\mu_{k1}^{2} + p_{k1}^{2}\mu_{k1}^{2} -p_{k1}\mu_{k1}^{2}
+p_{k1}p_{k2}\mu_{k2}^{2} + p_{k2}^{2}\mu_{k2}^{2} -p_{k2}\mu_{k2}^{2}\\
&=p_{k1}(\mu_{i}- \mu_{k1})^{2} +p_{k2}(\mu_{i}-\mu_{k2} )^{2} -p_{k1}p_{k2}(\mu_{k1} - \mu_{k2})^{2}\\
&\hspace{12pt} +p_{k1}\mu_{k1}^{2}(p_{k1}+p_{k2}-1) + p_{k2}\mu_{k2}^{2}(p_{k1}+p_{k2}-1)\\
&=p_{k1}(\mu_{i}- \mu_{k1})^{2} +p_{k2}(\mu_{i}-\mu_{k2} )^{2} -p_{k1}p_{k2}(\mu_{k1} - \mu_{k2})^{2} \\
\end{aligned}
よって、
\begin{aligned}
V[X]
&= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2}
+p_{k}p_{k2}\sigma_{k2}^{2} + p_{k}p_{k1}p_{k2} (\mu_{k1}-\mu_{k2})^{2} \\
&\hspace{12pt} +\sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}
+\sum_{i=1}^{k-1} \left\{ p_{i}p_{k}p_{k1}(\mu_{i}-\mu_{k1})^{2} +
p_{i}p_{k}p_{k2}(\mu_{i}-\mu_{k2})^{2} - p_{i}p_{k}p_{k1}p_{k2}(\mu_{k1}-\mu_{k2})^{2} \right\}\\
&= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2}
+p_{k}p_{k2}\sigma_{k2}^{2} + \sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\
&\hspace{12pt} + \sum_{i=1}^{k-1} p_{i}p_{k}p_{k1}(\mu_{i}-\mu_{k1})^{2}
+p_{k}p_{k1}p_{k2} (\mu_{k1}-\mu_{k2})^{2} (1-p_{1}-\cdots - p_{k-1})
+\sum_{i=1}^{k-1} p_{i}p_{k}p_{k2}(\mu_{i}-\mu_{k2})^{2} \\
&= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}p_{k1}\sigma_{k1}^{2}
+p_{k}p_{k2}\sigma_{k2}^{2} + \sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\
&\hspace{12pt} + \sum_{i=1}^{k-1} p_{i}p_{k}p_{k1}(\mu_{i}-\mu_{k1})^{2}
+p_{k}p_{k1}p_{k}p_{k2} (\mu_{k1}-\mu_{k2})^{2}
+\sum_{i=1}^{k-1} p_{i}p_{k}p_{k2}(\mu_{i}-\mu_{k2})^{2} \\
\end{aligned}
p_{k}p_{k1},\mu_{k1},\sigma_{k1} を順に p_{k},\mu_{k},\sigma_{k} と再定義し、
p_{k}p_{k2},\mu_{k2},\sigma_{k2} を順に p_{k+1},\mu_{k+1},\sigma_{k+1} とすれば、
\begin{aligned}
V[X]
&= \sum_{i=1}^{k-1} p_{i} \sigma_{i}^{2} + p_{k}\sigma_{k}^{2}
+p_{k+1}\sigma_{k+1}^{2} + \sum_{i=1}^{k-2} \sum_{j=i+1}^{k-1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\
&\hspace{12pt} + \sum_{i=1}^{k-1} p_{i}p_{k}(\mu_{i}-\mu_{k})^{2}
+p_{k}p_{k+1} (\mu_{k}-\mu_{k+1})^{2}
+\sum_{i=1}^{k-1} p_{i}p_{k+1}(\mu_{i}-\mu_{k2})^{2} \\
&= \sum_{i=1}^{k+1} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k-1} \sum_{j=i+1}^{k} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}
+\sum_{i=1}^{k} p_{i}p_{k+1}(\mu_{i}-\mu_{k2})^{2} \\
&= \sum_{i=1}^{k+1} p_{i} \sigma_{i}^{2} + \sum_{i=1}^{k} \sum_{j=i+1}^{k+1} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}\\
\end{aligned}
以上より、n=k+1 の場合も成立する。
よって帰納法により、すべての n について
\begin{aligned}
V[X] &= \sum_{i=1}^{n} p_{i}\sigma_{i}^{2} + \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} p_{i}p_{j}(\mu_{i}-\mu_{j})^{2}
\end{aligned}
が成立する。
Discussion