🦔

【機械学習】評価関数の種類と役割

2022/05/13に公開

Kaggleなどのデータ分析コンペでは評価指標が設定されていることがあり、それらの特性を理解することで、評価の基準、どのような出力が求められているのか、submissionの理解にもつながるでしょう。

そこで、本記事では回帰タスクにおける評価指標の種類と特徴についてメモがてらまとめていきます。

MAE(平均絶対誤差)

Mean Absolute Errorの略で残差に絶対値の平均を取って計算します。

$MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y_i}|$

後述のRMSEに比べて外れ値の影響を受けにくい

Root Mean Squared Errorの略で残差の2乗の平均に平方根を取って計算します。

$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y_i})^2}$

正解値を上回る場合（予測の値が大きい場合）に大きなペナルティを課します。

価格予測など、上振れが許されないタスク

外れ値の影響が強く出るので、事前に外れ値を除去する必要があります。

Root Mean Squared Logarithmic Errorの略で、予測値と正解値の対数差の2乗について平均を取って計算します。

$RMSLE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(log(i+y_i)-log(1+\hat{y_i}))^2}$

正解値を下回る場合（予測の値が小さい場合）に大きなペナルティを課します。

来客数、仕入れ、人員、在庫など、下振れが許されないタスク