🔢

相関係数と決定係数に関する(私目線での)再発見

2024/03/21に公開

訳あって面接を受けたのですが、まさかのミスをしたので戒めとして…。

改めて調べてみると新たな発見(視点?)もあったのでまとめる。

全体像

まずはざっくり全体像を以下にまとめる。

相関係数R 決定係数R^2
範囲 [-1,1] [0,1]
目的 相関関係を見たい 回帰式の当てはまり具合をみたい
Cov(x,y)/{\sigma _X \sigma _Y} {1-\Sigma (y-予測値)^2/\Sigma (y-\mu_y)^2 }

何をミスったのか?

さて今回ミスったのは「相関係数と決定係数の範囲の違い」についてです。

よくある問題だし、決定係数は見た目通り二乗なんだから範囲は負にはならなそうですよね。あたりまえ体操。

  • |相関係数|≥決定係数というよくある関係
    • 相関係数の二乗が決定係数なんだから、決定係数は相関係数より大きくなり得ない

👀新鮮な目線1

相関係数の二乗が決定係数なんだから、決定係数は相関係数より大きくなり得ない

ここでちょっと新鮮な目線として、「相関性を示すよりも回帰式への適合を示す方が難しい」ということが挙げられる

  • 例えば相関係数が0.9のとき決定係数は0.81
    • しかし相関係数が0.6に下がると決定係数は0.36にまで一気に下がる
    • 基本は相関係数が高くないと決定係数は高くならないので、より厳しい値であるR^2をみとけばおkって感じ

👀新鮮な目線2

数式再確認

Cov(x,y)/{\sigma _X \sigma _Y}

相関係数の式の意味を改めて考えると、「実質見ているのは分子:共分散Cov(X,Y)であって、分母の各標準偏差は共分散をスケーリングしているだけ」と解釈できることに気づきました。
ぱっと思いつきませんが数学やっていると割とこういう形で本質は分子で、分母で辻褄を合わせるという形が多い気がします。

👀新鮮な目線3

これが今回最も新鮮に感じた目線です。
「相関係数Rの二乗が決定係数R^2になるのは決して天下りではない」

少なくとも最小二乗法の文脈では、実はそれぞれ別の概念から出発したら、ラッキーなことにその関係で表現できたらしい、です。

  • 相関係数は4事象のうちの数値の集まり具合に注目しています。
  • 決定係数は決定係数は回帰式の変数xによる分散の比率に注目しています。

まずR^2 = 1-\Sigma (y-予測値)^2/\Sigma (y-\mu_y)^2について

  • これは元々、R^2=回帰変動(SSR)/全変動(SST)という関係から出発し、

  • 全変動(SST)=回帰変動(SSR)+残差変動(SSE)

  • →回帰変動(SSR)=全変動(SST)-残差変動(SSE)

という関係を用いて

と変形したものであることを理解しておく必要があります。

以降はR^2=SSR/SSTで話を進めていきます。

つまりR^2=SSR/SST=\Sigma (予測値-\mu_y)^2/\Sigma (y-\mu_y)^2とします。

1.最小二乗法における最適な直線f(x)=Ax+Bにおいて以下が成立する

  • \mu _y = A\mu _x +B
  • A= Cov(x,y)/\sigma^2 _x

2.まずR^2=SSR/SSTの分子について、SSR=\Sigma (予測値-\mu_y)^2=\Sigma ((Ax_i+B)-(A\mu _x +B))^2

3.次にR^2=SSR/SSTの分母について、分散\sigma _y^2=\Sigma (y-\mu_y)^2/nより\Sigma (y-\mu_y)^2=n\sigma _y^2

4.ここまでを整理すると
R^2
=SSR/SST
=\Sigma (予測値-\mu)^2/\Sigma (y-\mu)^2
=\Sigma ((Ax_i+B)-(A\mu _x +B))^2/n\sigma _y^2
=\Sigma (Ax_i-A\mu _x)^2/n\sigma _y^2
=A^2\Sigma (x_i-\mu _x)^2/n\sigma _y^2
=(Cov(X,Y)/\sigma_x^2)^2\Sigma (x_i-\mu _x)^2/n\sigma _y^2
=(Cov(X,Y)/\sigma_x^2)^2(n\sigma _x^2)/n\sigma _y^2
=Cov(x,y)^2/\sigma _x^2 \sigma _y^2
=(Cov(x,y)/\sigma _x \sigma _y)^2
=(R)^2

5.つまり「決定係数R^2を計算していったら相関係数Rの2乗になっていた」ということ(ここだけ見ると当たり前のようですがけっこう興味深いと思いました)

最後に

筆者は数弱の者なので、数学詳しい人からしたらもしかしたら当たり前のことかもしれないことにも新鮮なリアクションをとってしまうかもしれませんがご容赦ください。
社会人になってからデータサイエンスを独学する中で統計にドはまりし、数Ⅰ・数Aすら怪しかったところから何とか統計検定準1級をとれました。
1級もとりたいので、その過程で得たものをアウトプットしに稀に姿を見せる予定です。

Discussion