はじめに
相関係数とは名前の通り相関を表す係数です。
今回は一般的に使われているピアソンの相関係数(Pearson's correlation coefficient)についでです。相関係数の定義だけでなく使い方、解釈する際の注意点について知りたい方は見ていってください。
※ウィキペディアがめちゃくちゃ充実してたのでそっちも見たらおもろいかもです。
相関係数 (Pearson)
定義
2変数(X,Y)とする。このとき真の相関係数θは
\begin{align}
\theta = \frac{\sigma_{XY}}{\sigma_X\sigma_X}=\frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}
\end{align}
ここで, \sigma_{XY} :XとYの共分散 , \sigma_X : Xの標準偏差 , \sigma_Y : Yの標準偏差です。
さらに
\begin{align}
\theta=\frac{E[(X-E[X])(Y-E[Y])]}{\sqrt{E[(X-E[X])^2]}\sqrt{E[(Y-E[Y])^2]}}
\end{align}
このように書くこともできる。
実際、データ (x_1,y_1), ... ,(x_n,y_n)\in \R \times \R を使って表す標本相関係数 \hat\theta は
\begin{align}
\hat\theta = \frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum_{i=1}^n(x_i-\bar x)^2}\sqrt{\sum_{i=1}^n(y_i-\bar y)^2}}
\end{align}
n : データ数 , \bar x = \frac{1}{n}\sum_{i=1}^nx_i
さらに次のように書くこともできる。
\begin{align}
\hat \theta = \frac{1}{n}\sum_{i=1}^n \left( \frac{x_i-\bar x}{\sigma_x}\right)\left( \frac{y_i-\bar y}{\sigma_y}\right)
\end{align}
\sigma_x=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2} : xの標準偏差 , \sigma_y=\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\bar y)^2} : yの標準偏差
性質
式(4)から相関係数は標準化されていることがわかる。
さらに標準化されていることから、-1<\hat \theta <1 であることがわかる。
使用上の注意
- あくまでピアソンの相関係数が表すのは線形の関係であること。線形とは簡単に言えば比例。
- 相関があるとみなす基準値は、実際のデータによる。専門家に聞くべし。つまり例えば、0.1以上だったら相関があるというものと0.8以上で相関があるというなど使う分野などで基準は異なる。
- 散布図から相関があるかを判断する際はグラフのスケールに注意する。データの一部しか映っていなかったり一点にまとまって見えたりする可能性がある。
まとめ
相関係数は標準化されている点が賢いなって思いました。
次回は相関係数の発展的な内容になっています
https://zenn.dev/totopironote/articles/8b38d0b7e73805
参考文献
- ウィキペディア 「Pearson correlation coefficient」
https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
Discussion