回帰の性能指標

に公開

はじめに

概要

  • シラバス:E資格2024#2
  • 回帰の評価指標を勉強します

キーワード

平均絶対誤差, 平均二乗誤差, 二乗平均平方根誤差, 決定係数

学習内容

平均絶対誤差(Mean Absolute Error, MAE)

  • 予測値と実測値の誤差の絶対値の平均を示します
\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|
  • \hat{y}_i:予測値
  • i:データ数

特徴

  • 外れ値の影響をあまり受けにくい
  • 平均してどのくらいズレているか(ずれの大きさ)の意味です
  • 予測値と同じ単位

平均二乗誤差(Mean Squared Error, MSE)

  • 予測値と実測値の誤差(二乗)を平均したものです
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2

特徴

  • 誤差の2乗を使う:誤差が大きいほどペナルティが重くなります
  • 外れ値に敏感
  • 単位は予測値の単位の二乗

二乗平均平方根誤差(Root Mean Squre Error, RMSE)

  • 平均二乗誤差(MSE)の平方根を取ったもので、予測誤差の大きさを、元の単位(予測値の単位)で解釈しやすくした指標です
\text{RMSE} = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2 }

特徴

  • 外れ値に敏感
  • 予測値と同じ単位
  • 予測値のズレの大きさを直感的に理解しやすい

決定係数(Coefficient of Determination,COD)

  • 回帰モデルの予測の当てはまりの良さを表す指標です
COD = 1 - \frac{ \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 }{ \sum_{i=1}^{n} (y_i - \bar{y})^2 }
  • \hat{y}_i:予測値
  • \bar{y}:実測値の平均
  • 分子:誤差平方和(誤差)
  • 分母:総平方和(実測値のばらつき)

見方

COD 意味
1.0 完全に一致(理想)
0.8 80%のばらつきを説明できている
0.0 平均での予測と同じレベル
<0 予測の方が平均よりも悪い
GitHubで編集を提案

Discussion