📌

回帰とは?

2024/10/25に公開
1

回帰(Regression)とは?

統計学や機械学習における手法の1つ。ある変数(目的変数)の値を他の変数(説明変数)から予測するために使用する。

回帰モデル...回帰の数式そのもののこと。
回帰分析...回帰モデルを使ってデータ分析を行うこと。

回帰の種類

  • 単回帰
  • 重回帰
    • リッジ回帰
    • ラッソ回帰
  • 非線形回帰
  • ロジスティック回帰

などがある。

単回帰

1つの説明変数と1つの目的変数との間の線形な関係。

y = ax + b

(x:目的変数,y:説明変数)

重回帰

複数の説明変数と1つの目的変数との関係。

y = \sum_{k=1}^na_kx_k + b

ロジスティック回帰

2クラス分類、2値分類に使用され、特定の結果が発生する確率を予測する。
この場合、目的変数は確率となるので、予測値は0〜1に収めるために、
以下のロジスティック関数で任意の値を0〜1に変換する。そして結果が0.5より小さければ0,大きければ1というように2値に分類する。

\sigma(t)=\frac{1}{1+e^{-t}}

補足:ロジスティック関数はシグモイド関数(S字型の曲線を持つ非線形関数)の1種。

回帰における評価指標

  • 平均絶対誤差(MAE)
  • 平均絶対パーセント誤差(MAPE)
  • 平均二乗誤差(MSE)
  • 二乗平均平方誤差(RMSE)
  • 対数平均二乗誤差(RMSLE)
  • 決定係数

平均絶対誤差(MAE)

予測値と実際の値との差の絶対値の平均。

MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|

(y_iは実際の値、\hat{y}_iは予測値、nはデータ点の数)
利点:外れ値の影響を受けにくい

平均絶対パーセント誤差(MAPE)

相対誤差の平均をとったもの。

MAPE = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100

MAPEが低いほど、モデルの性能が高い。
利点:スケールが異なるデータの予測(時系列予測に対応できる)
注意点:正解値が0に近い場合、極端な評価値になってしまう。

平均二乗誤差(MSE)

誤差を二乗して平均する。

MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2

MSEが小さいほどモデルの性能が高い。
利点:大きな誤差を重視する。
注意点:単位が二乗されるため、直感的に理解しにくい

二乗平均平方誤差(RMSE)

RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}

対数平均二乗誤差(RMSLE)

RMSLE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\log(y_i + 1) - \log(\hat{y}_i + 1))^2}

決定係数(R^2)

モデルが実際のデータをどれだけ説明しているかを評価するための指標。

{R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i -\bar{y})^2}}

0から1の範囲で1に近いほど良いモデル。説明変数を増やすほど1に近づく傾向があることに注意。

その他の統計量

  • 標準誤差(SE)
  • 残差の標準誤差(RSE)
  • 偏回帰係数(それぞれの説明変数の係数)
  • 標準偏回帰係数
  • t統計量
  • (t検定に基づく)p値
  • 自由度修正済み決定係数
  • F統計量
  • (F検定に基づく)p値