📊

【統計検定準1級】分散共分散行列と相関係数行列

2024/08/25に公開

はじめに

この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。

【リンク紹介】
統計検定準1級のまとめ記事一覧
これまで書いたシリーズ記事一覧

学習書籍について

この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。


参考書籍について

統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。
※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。


基本知識

確率ベクトル

X1, X_2, \cdots, X_nをそれぞれ確率変数とする。このとき、

\begin{alignat*}{2} \boldsymbol{X} &= \left( \begin{array}{c} X_1 \\ X_2 \\ \vdots \\ X_n \end{array} \right) \\ &= (X_1, X_2, \cdots, X_n)^{T} \end{alignat*}

を、n次元の確率ベクトルという。

期待値ベクトル

そしてこの確率ベクトル\boldsymbol{X}の期待値ベクトルE[\boldsymbol{X}]を次のように定義する。

\begin{alignat*}{2} E[\boldsymbol{X}] &= \left( \begin{array}{c} E[X_1] \\ E[X_2] \\ \vdots \\ E[X_n] \end{array} \right) \\ \end{alignat*}

共分散

X_iX_j共分散(covariance)Cov[X_i, X_j](または\sigma_{ij})を以下のように定義する。

\begin{alignat*}{2} Cov[X_i, X_j] &= \sigma_{ij} \\ &= E[(X_i - E[X_i])(X_j - E[X_j])] \\ &= E[X_i X_j - E[X_j] X_i - E[X_i] X_j + E[X_i] E[X_j]] \\ &= E[X_i X_j] - E[E[X_j] X_i] - E[E[X_i] X_j] + E[E[X_i] E[X_j]] \\ &= E[X_i X_j] - E[X_j] E[X_i] - E[X_i] E[X_j] + E[X_i] E[X_j] \\ &= E[X_i X_j] - 2E[X_i] E[X_j] + E[X_i] E[X_j] \\ &= E[X_i X_j] - E[X_i] E[X_j] \end{alignat*}

特にX_i, X_jが独立であるとおき、

E[X_i X_j] = E[X_i] E[X_j]

であるから

Cov[X_i, X_j] = 0

である。

検定で役立つ共分散の等式

以下の等式を覚えておくと計算が早くなります。過去問を解く中でまとめたものですので、よければご活用ください。

X, Y, Z:確率変数
a, b, c:定数

Cov[X, aY + bZ + c] = a \ Cov[X, Y] + b \ Cov[X, Z]

(導出)

\begin{alignat*}{2} &Cov[X, aY + bZ + c] \\ &= E[X(aT + bZ + c)] - E[X]E[aY + bZ + c] \\ &= E[aXY + bXZ + cX] - E[X](aE[Y] + bE[Z] + c) \\ &= aE[XY] + bE[XZ] + cE[X] - aE[X]E[Y] - bE[X]E[Z] - cE[X] \\ &= a(E[XY] - E[X]E[Y]) + b(E[XZ] - E[X]E[Z]) \\ &= a \ Cov[X, Y] + b \ Cov[X, Z] \end{alignat*}

共分散行列

\boldsymbol{X}分散共分散行列(variance-covariance matrix)V[\boldsymbol{X}]を以下のように定義する。

\begin{alignat*}{2} V[\boldsymbol{X}] &= \Sigma \\ &= \left( \begin{array}{c} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1k} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k1} & \sigma_{k2} & \cdots & \sigma_{kk} \end{array} \right) \\ \end{alignat*}

またi = jのとき、

\begin{alignat*}{2} \sigma_{ii} &= Cov[X_i, X_i] \\ &= E[(X_i - E[X_i])(X_i - E[X_i])] \\ &= E[(X_i - E[X_i])^2] \\ &= E[X^2] - (E[X])^2 \\ &= V[X_i] \end{alignat*}

である。(V[X_i] = E[X^2] - (E[X])^2 の証明はこちら
よって分散共分散行列は次のように表すこともできる。

\begin{alignat*}{2} V[\boldsymbol{X}] &= \Sigma \\ &= \left( \begin{array}{c} V[X_1] & Cov[X_1, X_2] & \cdots & Cov[X_1, X_k] \\ Cov[X_2, X_1] & V[X_2] & \cdots & Cov[X_2, X_k] \\ \vdots & \vdots & \ddots & \vdots \\ Cov[X_k, X_1] & Cov[X_k, X_2] & \cdots & V[X_k] \end{array} \right) \\ \end{alignat*}

相関係数

X_iX_j相関係数(correlation coefficient)Corr[X_i, X_j](または\rho_{ij})を以下のように定義する。

\begin{alignat*}{2} Corr[X_i, X_j] &= \rho_{ij} \\ &= \cfrac{\sigma_{ij}} {\sqrt{\sigma_{ii}} \sqrt{\sigma_{jj}}} \\ &= \cfrac{Cov[X_i, X_j]} {\sqrt{Cov[X_i, X_i]} \sqrt{Cov[X_j, X_j]}} \\ &= \cfrac{Cov[X_i, X_j]} {\sqrt{V[X_i]} \sqrt{V[X_j]}} \end{alignat*}

特に、(標準正規分布のように)V[X_i] = 1, V[X_j] = 1であるとき、X_i, X_jの共分散と相関係数は等しい。つまり

Corr[X_i, X_j] = Cov[X_i, X_j]

が成り立つ。

相関係数行列

\boldsymbol{X}相関係数行列(correlation coefficient matrix)を以下のように定義する。

\begin{alignat*}{2} \left( \begin{array}{c} 1 & \rho_{12} & \cdots & \rho_{1k} \\ \rho_{21} & 1 & \cdots & \rho_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ \rho_{k1} & \rho_{k2} & \rho & 1 \end{array} \right) \\ \end{alignat*}

参考資料

\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。

Discussion