ざっくり統計|ピアソンの相関係数
概要
ピアソンの相関係数(Pearson correlation coefficient)は、2つの変数の線形的な関係性の強さと向き を測定する指標です。
相関係数は -1から1の範囲 をとり、
+1
: 完全な正の相関(Xが増えるとYも増える)
0
: 相関なし(線形関係がない)
-1
: 完全な負の相関(Xが増えるとYは減る)
を意味します。
概念
巷ではゴチャゴチャした数式が蔓延っていますが、ピアソンの相関係数の端的な定義は以下の通りです:
相関係数(r) = 標準化したX(Z X Z_X Z X )と標準化したY(Z Y Z_Y Z Y )の共分散
r = C o v ( Z X , Z Y ) = C o v ( X , Y ) S x ⋅ S y
\begin{align*}
r &= Cov(Z_X, Z_Y) \\[2ex]
&= \frac{Cov(X, Y)}{S_x \cdot S_y}
\end{align*}
r = C o v ( Z X , Z Y ) = S x ⋅ S y C o v ( X , Y )
細かな証明
r = C o v ( Z X , Z Y ) = 1 n − 1 ∑ i = 1 n ( z x i − z x ˉ ) ⋅ ( z y i − z y ˉ ) = 1 n − 1 ∑ i = 1 n z x i ⋅ z y i because z x ˉ = z y ˉ = 0 = 1 n − 1 ∑ i = 1 n x i − x ˉ S x ⋅ y i − y ˉ S y = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ⋅ ( y i − y ˉ ) S x ⋅ S y = C o v ( X , Y ) S x ⋅ S y
\begin{align*}
r &= Cov(Z_X, Z_Y) \\[2ex]
&= \frac{1}{n-1} \sum_{i=1}^{n} (z_{x_i} - \bar{z_x}) \cdot (z_{y_i} - \bar{z_y}) \\[2ex]
&= \frac{1}{n-1} \sum_{i=1}^{n} z_{x_i} \cdot z_{y_i} \text{ because } \bar{z_x} = \bar{z_y} = 0 \\[2ex]
&= \frac{1}{n-1} \sum_{i=1}^{n} \frac{x_i - \bar{x}}{S_x} \cdot \frac{y_i - \bar{y}}{S_y} \\[2ex]
&= \frac{
\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x}) \cdot (y_i - \bar{y})
} {
S_x \cdot S_y
} \\[2ex]
&= \frac{Cov(X, Y)}{S_x \cdot S_y}
\end{align*}
r = C o v ( Z X , Z Y ) = n − 1 1 i = 1 ∑ n ( z x i − z x ˉ ) ⋅ ( z y i − z y ˉ ) = n − 1 1 i = 1 ∑ n z x i ⋅ z y i because z x ˉ = z y ˉ = 0 = n − 1 1 i = 1 ∑ n S x x i − x ˉ ⋅ S y y i − y ˉ = S x ⋅ S y n − 1 1 ∑ i = 1 n ( x i − x ˉ ) ⋅ ( y i − y ˉ ) = S x ⋅ S y C o v ( X , Y )
標準化とは、各変数から平均を引き、標準偏差で割る操作のことです。
これにより、平均0・分散1の変数に変換され、共通のスケールで比較可能になります。
z x i = x i − x ˉ S x
z_{x_i} = \frac{x_i - \bar{x}}{S_x}
z x i = S x x i − x ˉ
つまり、ピアソンの相関係数については以下が成り立ちます。
スケールの影響は受けず、事前の標準化は不要(内部で標準化が行われる)
傾きの影響は必ずしも受けない(標準化後の傾きをみている)
公式
2変数 X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X = ( x 1 , x 2 , ... , x n ) 、Y = ( y 1 , y 2 , . . . , y n ) Y = (y_1, y_2, ..., y_n) Y = ( y 1 , y 2 , ... , y n ) のピアソン相関係数 r r r は以下の式で定義されます:
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ⋅ ∑ i = 1 n ( y i − y ˉ ) 2
r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}
r = ∑ i = 1 n ( x i − x ˉ ) 2 ⋅ ∑ i = 1 n ( y i − y ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ )
または、標準化後の変数 Z X , Z Y Z_X, Z_Y Z X , Z Y を使って:
r = 1 n − 1 ∑ i = 1 n z x i ⋅ z y i
r = \frac{1}{n-1} \sum_{i=1}^{n} z_{x_i} \cdot z_{y_i}
r = n − 1 1 i = 1 ∑ n z x i ⋅ z y i
検定(有意性の検定)
相関係数が偶然得られたものではなく、統計的に有意かどうか を検定するために、以下の t 分布を用いた検定を行います。
帰無仮説(H 0 H_0 H 0 ):
ρ = 0 ( 母集団の相関係数は0である )
\rho = 0 \quad (\text{母集団の相関係数は0である})
ρ = 0 ( 母集団の相関係数は 0 である )
対立仮説(H 1 H_1 H 1 ):
ρ ≠ 0 ( 母集団の相関係数は0でない )
\rho \neq 0 \quad (\text{母集団の相関係数は0でない})
ρ = 0 ( 母集団の相関係数は 0 でない )
検定統計量:
t = r n − 2 1 − r 2 (自由度 n − 2 )
t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \quad \text{(自由度 } n - 2 \text{)}
t = 1 − r 2 r n − 2 (自由度 n − 2 )
得られた t 値に基づいて、t 分布を使って p 値を計算します。
実は、相関係数のt値(p値)は回帰係数のt値(p値)と全く同じ値になります。
つまり、相関検定と回帰係数検定は全く同じ手法です。
相関と回帰を混同すると袋叩きにされてしまいますが、この2つは密接に関係しています。
このあたりは別記事で解説予定です。
信頼区間
ピアソンの相関係数の信頼区間を求めるには、Fisherのz変換 を用います。
手順:
相関係数 r を Fisherのz値 に変換:
z = \frac{1}{2} \ln\left(\frac{1 + r}{1 - r}\right)
z の標準誤差:
SE_z = \frac{1}{\sqrt{n - 3}}
z の信頼区間(95%信頼区間など):
z_{\text{lower}} = z - 1.96 \cdot SE_z \\
z_{\text{upper}} = z + 1.96 \cdot SE_z
zの信頼区間を相関係数 r の信頼区間に逆変換:
r_{\text{lower}} = \frac{e^{2z_{\text{lower}}} - 1}{e^{2z_{\text{lower}}} + 1} \\
r_{\text{upper}} = \frac{e^{2z_{\text{upper}}} - 1}{e^{2z_{\text{upper}}} + 1}
まとめ
項目
内容
定義
標準化したXとYの共分散
範囲
-1 〜 +1
検定方法
t分布を用いて有意性を評価
信頼区間
Fisherのz変換を用いて計算
Discussion