😽
確率的勾配降下法とその派生したロジックの比較一覧
確率的勾配降下法の比較一覧
| 手法 | 学習率 | 係数 | ステップ回数の傾向 | 特徴 |
|---|---|---|---|---|
| SGD | 大 | - | 遅い | 基本的な手法、学習率の調整が重要 |
| SGD | 小 | - | 非常に遅い | 基本的な手法、学習率の調整が重要 |
| Momentum | 大 | 大 | やや速い | 慣性により、SGDよりも収束が安定 |
| Momentum | 小 | 小 | 遅い | 慣性により、SGDよりも収束が安定 |
| Nesterov AG | 大 | 大 | 速い | Momentumよりも収束が速く、安定 |
| Nesterov AG | 小 | 小 | やや遅い | Momentumよりも収束が速く、安定 |
| Adagrad | - | - | 比較的速い | 学習率を自動調整、スパースなデータに適する |
| AdaDelta | - | - | 比較的速い | 学習率の自動調整、Adagradの改善版 |
| RMSProp | 大 | - | 速い | 学習率を自動調整、ミニバッチ学習に適する |
| RMSProp | 小 | - | やや速い | 学習率を自動調整、ミニバッチ学習に適する |
| Adam | 大 | - | 非常に速い | MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能 |
| Adam | 小 | - | 速い | MomentumとRMSPropの組み合わせ、広範囲のタスクで高性能 |
XavierさんとHeさんの比較
| 特徴 | Xavierの初期値 | Heの初期値 |
|---|---|---|
| 主な適用活性化関数 | シグモイド関数、tanh関数 | ReLU関数、LeakyReLU関数 |
| 重みのスケーリング | 前層のノード数に基づく | ReLU関数の特性に合わせた調整 |
| 学習の安定性 | シグモイド/tanh使用時に安定 | ReLU使用時に非常に安定 |
| 勾配消失問題の緩和 | 効果あり | より効果的 |
| モデル表現力 | 標準的 | 初期段階で比較的高い |
Discussion