😽

確率的勾配降下法とその派生したロジックの比較一覧

2025/03/02に公開

確率的勾配降下法の比較一覧

手法 学習率 係数 ステップ回数の傾向 特徴
SGD - 遅い 基本的な手法、学習率の調整が重要
SGD - 非常に遅い 基本的な手法、学習率の調整が重要
Momentum やや速い 慣性により、SGDよりも収束が安定
Momentum 遅い 慣性により、SGDよりも収束が安定
Nesterov AG 速い Momentumよりも収束が速く、安定
Nesterov AG やや遅い Momentumよりも収束が速く、安定
Adagrad - - 比較的速い 学習率を自動調整、スパースなデータに適する
AdaDelta - - 比較的速い 学習率の自動調整、Adagradの改善版
RMSProp - 速い 学習率を自動調整、ミニバッチ学習に適する
RMSProp - やや速い 学習率を自動調整、ミニバッチ学習に適する
Adam - 非常に速い MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能
Adam - 速い MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能

XavierさんとHeさんの比較

特徴 Xavierの初期値 Heの初期値
主な適用活性化関数 シグモイド関数、tanh関数 ReLU関数、LeakyReLU関数
重みのスケーリング 前層のノード数に基づく ReLU関数の特性に合わせた調整
学習の安定性 シグモイド/tanh使用時に安定 ReLU使用時に非常に安定
勾配消失問題の緩和 効果あり より効果的
モデル表現力 標準的 初期段階で比較的高い

Discussion