ざっくり統計|ピアソンの相関係数
概要
ピアソンの相関係数(Pearson correlation coefficient)は、2つの変数の線形的な関係性の強さと向きを測定する指標です。
相関係数は -1から1の範囲をとり、
-
+1
: 完全な正の相関(Xが増えるとYも増える)
-
0
: 相関なし(線形関係がない)
-
-1
: 完全な負の相関(Xが増えるとYは減る)
を意味します。
概念
巷ではゴチャゴチャした数式が蔓延っていますが、ピアソンの相関係数の端的な定義は以下の通りです:
相関係数(r) = 標準化したX(Z_X)と標準化したY(Z_Y)の共分散
\begin{align*}
r &= Cov(Z_X, Z_Y) \\[2ex]
&= \frac{Cov(X, Y)}{S_x \cdot S_y}
\end{align*}
細かな証明
\begin{align*}
r &= Cov(Z_X, Z_Y) \\[2ex]
&= \frac{1}{n-1} \sum_{i=1}^{n} (z_{x_i} - \bar{z_x}) \cdot (z_{y_i} - \bar{z_y}) \\[2ex]
&= \frac{1}{n-1} \sum_{i=1}^{n} z_{x_i} \cdot z_{y_i} \text{ because } \bar{z_x} = \bar{z_y} = 0 \\[2ex]
&= \frac{1}{n-1} \sum_{i=1}^{n} \frac{x_i - \bar{x}}{S_x} \cdot \frac{y_i - \bar{y}}{S_y} \\[2ex]
&= \frac{
\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x}) \cdot (y_i - \bar{y})
} {
S_x \cdot S_y
} \\[2ex]
&= \frac{Cov(X, Y)}{S_x \cdot S_y}
\end{align*}
標準化とは、各変数から平均を引き、標準偏差で割る操作のことです。
これにより、平均0・分散1の変数に変換され、共通のスケールで比較可能になります。
z_{x_i} = \frac{x_i - \bar{x}}{S_x}
つまり、ピアソンの相関係数については以下が成り立ちます。
- スケールの影響は受けず、事前の標準化は不要(内部で標準化が行われる)
- 傾きの影響は必ずしも受けない(標準化後の傾きをみている)
公式
2変数 X = (x_1, x_2, ..., x_n)、Y = (y_1, y_2, ..., y_n) のピアソン相関係数 r は以下の式で定義されます:
r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}
または、標準化後の変数 Z_X, Z_Y を使って:
r = \frac{1}{n-1} \sum_{i=1}^{n} z_{x_i} \cdot z_{y_i}
検定(有意性の検定)
相関係数が偶然得られたものではなく、統計的に有意かどうかを検定するために、以下の t 分布を用いた検定を行います。
帰無仮説(H_0):
\rho = 0 \quad (\text{母集団の相関係数は0である})
対立仮説(H_1):
\rho \neq 0 \quad (\text{母集団の相関係数は0でない})
検定統計量:
t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \quad \text{(自由度 } n - 2 \text{)}
得られた t 値に基づいて、t 分布を使って p 値を計算します。
実は、相関係数のt値(p値)は回帰係数のt値(p値)と全く同じ値になります。
つまり、相関検定と回帰係数検定は全く同じ手法です。
相関と回帰を混同すると袋叩きにされてしまいますが、この2つは密接に関係しています。
このあたりは別記事で解説予定です。
信頼区間
ピアソンの相関係数の信頼区間を求めるには、Fisherのz変換を用います。
手順:
- 相関係数 r を Fisherのz値 に変換:
z = \frac{1}{2} \ln\left(\frac{1 + r}{1 - r}\right)
-
zの標準誤差:
SE_z = \frac{1}{\sqrt{n - 3}}
-
zの信頼区間(95%信頼区間など):
z_{\text{lower}} = z - 1.96 \cdot SE_z \\
z_{\text{upper}} = z + 1.96 \cdot SE_z
- zの信頼区間を相関係数 r の信頼区間に逆変換:
r_{\text{lower}} = \frac{e^{2z_{\text{lower}}} - 1}{e^{2z_{\text{lower}}} + 1} \\
r_{\text{upper}} = \frac{e^{2z_{\text{upper}}} - 1}{e^{2z_{\text{upper}}} + 1}
まとめ
項目 |
内容 |
定義 |
標準化したXとYの共分散 |
範囲 |
-1 〜 +1 |
検定方法 |
t分布を用いて有意性を評価 |
信頼区間 |
Fisherのz変換を用いて計算 |
Discussion