😽

確率的勾配降下法とその派生したロジックの比較一覧

2025/03/02に公開

 確率的勾配降下法の比較一覧


手法
学習率
係数
ステップ回数の傾向
特徴


SGD
大
-
遅い
基本的な手法、学習率の調整が重要

SGD
小
-
非常に遅い
基本的な手法、学習率の調整が重要

Momentum
大
大
やや速い
慣性により、SGDよりも収束が安定

Momentum
小
小
遅い
慣性により、SGDよりも収束が安定

Nesterov AG
大
大
速い
Momentumよりも収束が速く、安定

Nesterov AG
小
小
やや遅い
Momentumよりも収束が速く、安定

Adagrad
-
-
比較的速い
学習率を自動調整、スパースなデータに適する

AdaDelta
-
-
比較的速い
学習率の自動調整、Adagradの改善版

RMSProp
大
-
速い
学習率を自動調整、ミニバッチ学習に適する

RMSProp
小
-
やや速い
学習率を自動調整、ミニバッチ学習に適する

Adam
大
-
非常に速い
MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能

Adam
小
-
速い
MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能



 XavierさんとHeさんの比較


特徴
Xavierの初期値
Heの初期値


主な適用活性化関数
シグモイド関数、tanh関数
ReLU関数、LeakyReLU関数

重みのスケーリング
前層のノード数に基づく
ReLU関数の特性に合わせた調整

学習の安定性
シグモイド/tanh使用時に安定
ReLU使用時に非常に安定

勾配消失問題の緩和
効果あり
より効果的

モデル表現力
標準的
初期段階で比較的高い

手法	学習率	係数	ステップ回数の傾向	特徴
SGD	大	-	遅い	基本的な手法、学習率の調整が重要
SGD	小	-	非常に遅い	基本的な手法、学習率の調整が重要
Momentum	大	大	やや速い	慣性により、SGDよりも収束が安定
Momentum	小	小	遅い	慣性により、SGDよりも収束が安定
Nesterov AG	大	大	速い	Momentumよりも収束が速く、安定
Nesterov AG	小	小	やや遅い	Momentumよりも収束が速く、安定
Adagrad	-	-	比較的速い	学習率を自動調整、スパースなデータに適する
AdaDelta	-	-	比較的速い	学習率の自動調整、Adagradの改善版
RMSProp	大	-	速い	学習率を自動調整、ミニバッチ学習に適する
RMSProp	小	-	やや速い	学習率を自動調整、ミニバッチ学習に適する
Adam	大	-	非常に速い	MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能
Adam	小	-	速い	MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能

特徴	Xavierの初期値	Heの初期値
主な適用活性化関数	シグモイド関数、tanh関数	ReLU関数、LeakyReLU関数
重みのスケーリング	前層のノード数に基づく	ReLU関数の特性に合わせた調整
学習の安定性	シグモイド/tanh使用時に安定	ReLU使用時に非常に安定
勾配消失問題の緩和	効果あり	より効果的
モデル表現力	標準的	初期段階で比較的高い

確率的勾配降下法の比較一覧

XavierさんとHeさんの比較

Discussion