Zenn
🗂

ざっくり統計|ピアソンの相関係数

2025/04/09に公開

ざっくり統計|ピアソンの相関係数

概要

ピアソンの相関係数(Pearson correlation coefficient)は、2つの変数の線形的な関係性の強さと向きを測定する指標です。
相関係数は -1から1の範囲をとり、

  • +1: 完全な正の相関(Xが増えるとYも増える)
  • 0: 相関なし(線形関係がない)
  • -1: 完全な負の相関(Xが増えるとYは減る)

を意味します。

概念

巷ではゴチャゴチャした数式が蔓延っていますが、ピアソンの相関係数の端的な定義は以下の通りです:

相関係数(r) = 標準化したX(ZXZ_X)と標準化したY(ZYZ_Y)の共分散

r=Cov(ZX,ZY)=Cov(X,Y)SxSy \begin{align*} r &= Cov(Z_X, Z_Y) \\[2ex] &= \frac{Cov(X, Y)}{S_x \cdot S_y} \end{align*}
細かな証明
r=Cov(ZX,ZY)=1n1i=1n(zxizxˉ)(zyizyˉ)=1n1i=1nzxizyi because zxˉ=zyˉ=0=1n1i=1nxixˉSxyiyˉSy=1n1i=1n(xixˉ)(yiyˉ)SxSy=Cov(X,Y)SxSy \begin{align*} r &= Cov(Z_X, Z_Y) \\[2ex] &= \frac{1}{n-1} \sum_{i=1}^{n} (z_{x_i} - \bar{z_x}) \cdot (z_{y_i} - \bar{z_y}) \\[2ex] &= \frac{1}{n-1} \sum_{i=1}^{n} z_{x_i} \cdot z_{y_i} \text{ because } \bar{z_x} = \bar{z_y} = 0 \\[2ex] &= \frac{1}{n-1} \sum_{i=1}^{n} \frac{x_i - \bar{x}}{S_x} \cdot \frac{y_i - \bar{y}}{S_y} \\[2ex] &= \frac{ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x}) \cdot (y_i - \bar{y}) } { S_x \cdot S_y } \\[2ex] &= \frac{Cov(X, Y)}{S_x \cdot S_y} \end{align*}

標準化とは、各変数から平均を引き、標準偏差で割る操作のことです。
これにより、平均0・分散1の変数に変換され、共通のスケールで比較可能になります。

zxi=xixˉSx z_{x_i} = \frac{x_i - \bar{x}}{S_x}



つまり、ピアソンの相関係数については以下が成り立ちます。

  • スケールの影響は受けず、事前の標準化は不要(内部で標準化が行われる)
  • 傾きの影響は必ずしも受けない(標準化後の傾きをみている)

公式

2変数 X=(x1,x2,...,xn)X = (x_1, x_2, ..., x_n)Y=(y1,y2,...,yn)Y = (y_1, y_2, ..., y_n) のピアソン相関係数 rr は以下の式で定義されます:

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2 r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}

または、標準化後の変数 ZX,ZYZ_X, Z_Y を使って:

r=1n1i=1nzxizyi r = \frac{1}{n-1} \sum_{i=1}^{n} z_{x_i} \cdot z_{y_i}

検定(有意性の検定)

相関係数が偶然得られたものではなく、統計的に有意かどうかを検定するために、以下の t 分布を用いた検定を行います。

帰無仮説(H0H_0):

ρ=0(母集団の相関係数は0である) \rho = 0 \quad (\text{母集団の相関係数は0である})

対立仮説(H1H_1):

ρ0(母集団の相関係数は0でない) \rho \neq 0 \quad (\text{母集団の相関係数は0でない})

検定統計量:

t=rn21r2(自由度 n2 t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \quad \text{(自由度 } n - 2 \text{)}

得られた t 値に基づいて、t 分布を使って p 値を計算します。

実は、相関係数のt値(p値)は回帰係数のt値(p値)と全く同じ値になります。
つまり、相関検定と回帰係数検定は全く同じ手法です。
相関と回帰を混同すると袋叩きにされてしまいますが、この2つは密接に関係しています。
このあたりは別記事で解説予定です。


信頼区間

ピアソンの相関係数の信頼区間を求めるには、Fisherのz変換を用います。

手順:

  1. 相関係数 r を Fisherのz値 に変換:
z = \frac{1}{2} \ln\left(\frac{1 + r}{1 - r}\right)
  1. zの標準誤差:
SE_z = \frac{1}{\sqrt{n - 3}}
  1. zの信頼区間(95%信頼区間など):
z_{\text{lower}} = z - 1.96 \cdot SE_z \\ z_{\text{upper}} = z + 1.96 \cdot SE_z
  1. zの信頼区間を相関係数 r の信頼区間に逆変換:
r_{\text{lower}} = \frac{e^{2z_{\text{lower}}} - 1}{e^{2z_{\text{lower}}} + 1} \\ r_{\text{upper}} = \frac{e^{2z_{\text{upper}}} - 1}{e^{2z_{\text{upper}}} + 1}

まとめ

項目 内容
定義 標準化したXとYの共分散
範囲 -1 〜 +1
検定方法 t分布を用いて有意性を評価
信頼区間 Fisherのz変換を用いて計算

Discussion

ログインするとコメントできます