😽
確率的勾配降下法とその派生したロジックの比較一覧
確率的勾配降下法の比較一覧
手法 | 学習率 | 係数 | ステップ回数の傾向 | 特徴 |
---|---|---|---|---|
SGD | 大 | - | 遅い | 基本的な手法、学習率の調整が重要 |
SGD | 小 | - | 非常に遅い | 基本的な手法、学習率の調整が重要 |
Momentum | 大 | 大 | やや速い | 慣性により、SGDよりも収束が安定 |
Momentum | 小 | 小 | 遅い | 慣性により、SGDよりも収束が安定 |
Nesterov AG | 大 | 大 | 速い | Momentumよりも収束が速く、安定 |
Nesterov AG | 小 | 小 | やや遅い | Momentumよりも収束が速く、安定 |
Adagrad | - | - | 比較的速い | 学習率を自動調整、スパースなデータに適する |
AdaDelta | - | - | 比較的速い | 学習率の自動調整、Adagradの改善版 |
RMSProp | 大 | - | 速い | 学習率を自動調整、ミニバッチ学習に適する |
RMSProp | 小 | - | やや速い | 学習率を自動調整、ミニバッチ学習に適する |
Adam | 大 | - | 非常に速い | MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能 |
Adam | 小 | - | 速い | MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能 |
XavierさんとHeさんの比較
特徴 | Xavierの初期値 | Heの初期値 |
---|---|---|
主な適用活性化関数 | シグモイド関数、tanh関数 | ReLU関数、LeakyReLU関数 |
重みのスケーリング | 前層のノード数に基づく | ReLU関数の特性に合わせた調整 |
学習の安定性 | シグモイド/tanh使用時に安定 | ReLU使用時に非常に安定 |
勾配消失問題の緩和 | 効果あり | より効果的 |
モデル表現力 | 標準的 | 初期段階で比較的高い |
Discussion