🦍

【統計検定2級/学習メモ】確率変数の線形結合における相関係数の算出

に公開

※問題集や参考書の解説が不親切だったので、自分用に噛み砕いたものをメモ。

こんな問題を発見。

あるデータセットにおいて、3つの標準化された確率変数 X, Y および Z がある。
これらの変数の共分散は以下のように与えられる。
Cov[X, Y]=0.3
Cov[Y, Z]=-0.5
Cov[X, Z]=0
ここで、新たな変数 W=X+Y+Z を定義したとき、変数 XW の相関係数 Corr[X,W] を計算せよ。

Corr[X,W] = \frac{Cov[X,W]}{\sqrt{V[X]}\sqrt{V[W]}}

これを計算したいが、 Cov[X,W]V[W] をどう算出するか?

まず V[W] について。
確率変数 X, Y, Z がそれぞれ無相関もしくは独立であれば、 V[W] = V[X+Y+Z] = V[X]+V[Y]+V[Z] とすれば良い。
ただ、もしその場合、確率変数同士の共分散は0になるはずだが、問題の与条件を見ると共分散が0にならないので、単純な分散の足し算は使えない。
さらに、期待値の線形性より、E[W] = E[X+Y+Z] = E[X]+E[Y]+E[Z] だから、

\begin{aligned} V[W] &= E[(W-E[W])^2]\\ &= E[(X-E[X]+Y-E[Y]+Z-E[Z])^2] \end{aligned}

右辺の E[] 内は、平方の展開式 (a+b+c)^2 = a^2+b^2+c^2+2ab+2bc+2ca をそのまま適用すると、

\begin{aligned} (X-E[X]+Y-E[Y]+Z-E[Z])^2 &= (X-E[X])^2+(Y-E[Y])^2+(Z-E[Z])^2\\ &+2(X-E[X])(Y-E[Y])\\ &+2(Y-E[Y])(Z-E[Z])\\ &+2(Z-E[Z])(X-E[X]) \end{aligned}

よって、式展開を継続すると、

\begin{aligned} V[W] &= E[(W-E[W])^2]\\ &=E[(X-E[X]+Y-E[Y]+Z-E[Z])^2]\\ &=E[(X-E[X])^2]+E[(Y-E[Y])^2]+E[(Z-E[Z])^2]\\ &+2E[(X-E[X])(Y-E[Y])]\\ &+2E[(Y-E[Y])(Z-E[Z])]\\ &+2E[(Z-E[Z])(X-E[X])]\\ &=V[X]+V[Y]+V[Z]+2Cov[X,Y]+2Cov[Y,Z]+2Cov[Z,X]\\ \end{aligned}

よって、確率変数 X, Y, Z は標準化されていることと、与条件から、

\begin{aligned} V[W] &= V[X]+V[Y]+V[Z]+2Cov[X,Y]+2Cov[Y,Z]+2Cov[Z,X]\\ &= 1+1+1+2×0.3+2×(-0.5)+2×0\\ &= 2.6 \end{aligned}

次に、Cov[X,W] について。

\begin{aligned} Cov[X,W] &= E[(X-E[X])(X+Y+Z-E[X+Y+Z])]\\ &=E[(X-E[X])(X-E[X])]+E[(X-E[X])(Y-E[Y])]+E[(X-E[X])(Z-E[Z])]\\ &=Cov[X,X]+Cov[X,Y]+Cov[X,Z] \end{aligned}

ここで、 Cov[X,X]=E[(X-E[X])(X-E[X])]=E[(X-E[X])^2] だから、これはXの分散そのもの(標準化変数なので分散は1)。
与条件と併せて、

\begin{aligned} Cov[X,W] = &=V[X]+Cov[X,Y]+Cov[X,Z]\\ &= 1+0.3+0\\ &= 1.3 \end{aligned}

よって、

\begin{aligned} Corr[X,W] &= \frac{Cov[X,W]}{\sqrt{V[X]}\sqrt{V[W]}}\\ &= \frac{1.3}{1×\sqrt{2.6}}\\ & \approx 0.81 \end{aligned}

※ここから補足
V[W] = V[X+Y+Z] = V[X]+V[Y]+V[Z] とならないのはなぜか?
分散が足し算で済むのは、各変数同士が「完全に切り離されている」とき、つまり「すべての共分散が0」か、さらに強い条件として「独立」である場合のみ。

そもそも、各変数同士が独立であったとしても、最初から V[X+Y]=V[X]+V[Y] という単純な形で表せるわけではない。

\begin{aligned} V[X+Y] &= E[(X+Y-E[X+Y])^2]\\ &= E[(X-E[X]+Y-E[Y])^2]\\ &=E[(X-E[X])^2+2(X-E[X])(Y-E[Y])+(Y-E[Y])^2]\\ &=E[(X-E[X])^2]+E[(Y-E[Y])^2]+2E[(X-E[X])(Y-E[Y])]\\ &=V[X]+V[Y]+2Cov[X,Y] \end{aligned}

確率変数 X, Yが無相関もしくは独立の場合は、Cov[X,Y]=0になるから、V[X+Y]=V[X]+V[Y] という分散の和の形で表現できるというだけの話。

Discussion