相関係数と決定係数に関する(私目線での)再発見
訳あって面接を受けたのですが、まさかのミスをしたので戒めとして…。
改めて調べてみると新たな発見(視点?)もあったのでまとめる。
全体像
まずはざっくり全体像を以下にまとめる。
相関係数 |
決定係数 |
|
---|---|---|
範囲 | [-1,1] | [0,1] |
目的 | 相関関係を見たい | 回帰式の当てはまり具合をみたい |
式 |
何をミスったのか?
さて今回ミスったのは「相関係数と決定係数の範囲の違い」についてです。
よくある問題だし、決定係数は見た目通り二乗なんだから範囲は負にはならなそうですよね。あたりまえ体操。
- |相関係数|≥決定係数というよくある関係
- 相関係数の二乗が決定係数なんだから、決定係数は相関係数より大きくなり得ない
👀新鮮な目線1
相関係数の二乗が決定係数なんだから、決定係数は相関係数より大きくなり得ない
ここでちょっと新鮮な目線として、「相関性を示すよりも回帰式への適合を示す方が難しい」ということが挙げられる
- 例えば相関係数が0.9のとき決定係数は0.81
- しかし相関係数が0.6に下がると決定係数は0.36にまで一気に下がる
- 基本は相関係数が高くないと決定係数は高くならないので、より厳しい値である
をみとけばおkって感じR^2
👀新鮮な目線2
数式再確認
Cov(x,y)/{\sigma _X \sigma _Y}
相関係数の式の意味を改めて考えると、「実質見ているのは分子:共分散Cov(X,Y)であって、分母の各標準偏差は共分散をスケーリングしているだけ」と解釈できることに気づきました。
ぱっと思いつきませんが数学やっていると割とこういう形で本質は分子で、分母で辻褄を合わせるという形が多い気がします。
👀新鮮な目線3
これが今回最も新鮮に感じた目線です。
「相関係数Rの二乗が決定係数
少なくとも最小二乗法の文脈では、実はそれぞれ別の概念から出発したら、ラッキーなことにその関係で表現できたらしい、です。
- 相関係数は4事象のうちの数値の集まり具合に注目しています。
- 決定係数は決定係数は回帰式の変数xによる分散の比率に注目しています。
まず
-
これは元々、
=回帰変動(SSR)/全変動(SST)という関係から出発し、R^2 -
全変動(SST)=回帰変動(SSR)+残差変動(SSE)
-
→回帰変動(SSR)=全変動(SST)-残差変動(SSE)
という関係を用いて
と変形したものであることを理解しておく必要があります。
以降は
つまり
1.最小二乗法における最適な直線
\mu _y = A\mu _x +B A= Cov(x,y)/\sigma^2 _x
2.まず
3.次に
4.ここまでを整理すると
=SSR/SST
=
=
=
=
=
=
=
=
=
5.つまり「決定係数
最後に
筆者は数弱の者なので、数学詳しい人からしたらもしかしたら当たり前のことかもしれないことにも新鮮なリアクションをとってしまうかもしれませんがご容赦ください。
社会人になってからデータサイエンスを独学する中で統計にドはまりし、数Ⅰ・数Aすら怪しかったところから何とか統計検定準1級をとれました。
1級もとりたいので、その過程で得たものをアウトプットしに稀に姿を見せる予定です。
Discussion