損失曲面,Flat minima,特異点、対称性、SLT

まとまってないまとめ


ランダム行列の考えを用いた手法
Towards understanding the true loss surface of deep neural networks using random matrix theory and iterative spectral methods
損失曲面の幾何学的特性、例えば解の局所的平坦性などは、ディープラーニングにおける一般化と関連している。ヘッシアンは、こうした幾何学的特性を理解するためによく使われる。本研究では、経験的データセットで評価したニューラルネットワークのヘッシアンの固有値、すなわち経験的ヘッシアンと、データ生成分布のもとでのヘッシアンの固有値(ここでは真のヘッシアンと呼ぶ)の差を調べる。緩やかな仮定の下で、ランダム行列理論を用いて、真のヘッシアンの固有値は経験的ヘッシアンの固有値よりも絶対値が小さいことを示す。これらの結果は、110層ResNetとVGG-16の両方で、異なるSGDスケジュールに対して裏付けられている。これらの実験を行うために、GPUで高速化された確率的ランチョス積分法に基づく、スペクトル可視化のフレームワークを提案する。このアプローチは、最先端のスペクトル可視化方法よりも桁違いに高速であり、ディープラーニングにおける行列のスペクトル特性を調査するために一般的に使用できます。
Geometry of Neural Network Loss Surfaces via Random Matrix Theory
Neural NetworkのLoss surfaceの幾何学を、特にCritical pointにおけるHessian matrixのEigenvaluesの分布に着目して研究する。より良いOptimization algorithmの開発や、Deep learningが機能する理論的理解のために、Loss surfaceの理解は重要である。本研究では、Random matrix theoryとFree probabilityの解析的枠組みとツールを導入し、いくつかの単純化された仮定の下でこの分布の近似計算を可能にする。スペクトルの形状はEnergy (

The loss surface of deep linear networks viewed through the algebraic geometry lens
概要
線形なDNNに対して、flat minima(特異)はL2正則化で取り除ける。L2正則化項がある場合には局所最適解が大域的ではなくなる(孤立する)。小さな層数、行列サイズに対して全ての平衡解を求めた
目的
実安定点の個数を求める
手法
代数幾何学的手法 NPHC(Numerical Polynomial Homotopy Continuation)を用いた
同じ著者による素粒子物理での計算例
ホモトピー
h(x;t)=(1−t)f(x)+γtg(x)=0
でtを変化させて既知の解g(x)からf(x)までの連続的な変換を作る。
成果
解の個数の上限
Upper bound Classiacal Bezout Bound(CBB 次数2H+1の勾配方程式の場合、総重み数 n に対して
(2H+1)^n )をBKK(Bernshtein Kushnirenko-Khovanskii) boundで抑えている
実際に解の個数が計算できたネットワークは1層でとても小さい。入力次元、出力次元、訓練サンプル数を増やすと停留点の数は爆発的に増加する
解同士の離散対称性が見れている。
トポロジーの自明化
正則化の強さが増すにつれて、実数の停留点の数が減少し、最終的には実数の解が存在しなくなる
関連
flat minimaの存在は昔から議論されていた
P. Baldi and K. Hornik, “Neural networks and principal component analysis: Learning from examples without local minima,” Neural networks, vol. 2, no. 1, pp. 53–58, 1989.
では正則化なしのモデルではすべての局所的最小値が大域的最小値であることを示した
[14] K. Kawaguchi, “Deep learning without poor local minima,” arXiv preprint arXiv:1605.07110, 2016.
非正則化深層線形ネットワークには「悪い」局所最小点がないことを示す、BaldiとHornikの基礎的な研究を拡張した、より新しく一般的な証明を提供する
議論
- 結果の適用範囲
実の解 - 特異点、代数幾何、対称性、学習係数との関係
- 特異点解消、複素数以外には使いづらい 数値的推定
- 正則化で対称性を破壊するのは 摂動でモース理論に持っていく方法に似てる?

特に対称性に着目
群としてみると
- 連続変換
- 離散変換
がある。
臨界点周辺のみを見るか 、パラメータ行列を対称としてみるかの違いもある。
Identifying Sparsely Active Circuits Through Local Loss Landscape Decomposition
Ubiquitous Symmetry at Critical Points Across Diverse Optimization Landscapes

Understanding Mode Connectivity via Parameter Space Symmetry
ニューラルネットワークの最小値は、しばしば曲線で接続され、その曲線に沿って学習損失とテスト損失はほぼ一定のままである。この現象はモード連結性と呼ばれる。この特性はモデルのマージや微調整といった応用を可能にしてきたが、その理論的説明は依然として不明確である。本研究では、パラメータ空間の対称性を用いて最小値の連結性を探索する新しい手法を提案する。対称群の位相を最小値の位相と関連付けることで、線形ネットワークの最小値の連結成分の数を導出し、スキップ接続によってこの数が減少することを示す。次に、最小値の大部分を占めるパラメータ対称性を用いて、モード連結性と線形モード連結性が成立または不成立となる条件を検討する。最後に、対称性によって誘導される最小値における連結曲線の明示的な表現を提供する。これらの曲線の曲率を用いて、線形モード連結性が近似的に成立する条件を導出する。本研究の知見は、ニューラルネットワークの損失ランドスケープを理解する上で連続対称性の役割を浮き彫りにする。

対称性ベースの理論的フレームワークを開発
線形ネットワークの最小値に厳密に2^(l-1)個の連結成分が存在すること(ResNetではスキップ接続がない場合4個から3個に減少)、同次活性化関数を持つネットワークが同じ連結成分上にあるにもかかわらず線形補間中に無制限の損失障壁を示す可能性があること、そして経験的なパス探索方法を超えた原理的なモデル結合を可能にするリー群の指数写像を介した低損失接続曲線の明示的な数学的表現を提供しています。
問題点
ニューラルネットワークの最小値間のモード接続は、強力な経験的検証とモデル結合やアンサンブルにおける実用的な有用性があるにもかかわらず、厳密な理論的説明が欠如している
既存の理論は、主に離散対称性(ニューロンの置換)に焦点を当てており、損失ランドスケープのトポロジーにおける連続パラメータ空間対称性の役割をほとんど無視している
線形モード接続は広く仮定されているが、異なる活性化関数やアーキテクチャに対するその失敗の条件は依然として不明瞭である
接続パスを見つける現在の方法は、原理的な数学的フレームワークではなく、経験的な探索に依存している
手法
ニューラルネットワークの最小値と位相群の間に同相写像を確立し、よく理解された数学的構造からの連結性プロパティを転送する
連続対称性(同次活性化におけるスケーリングなど)を離散対称性と並行して分析し、完全なトポロジー的特性付けを提供する
最適化に基づくパス発見に頼らず、リー群の指数写像を使用して明示的な低損失接続曲線を構築する
最小値間の線形補間が約損失を維持する時期を予測する曲率ベースの条件を導出する
結果
隠れ次元h≥2の線形ネットワークは置換までモード接続を達成することを証明し、3層ResNetはスキップ接続がないネットワークと比較して連結成分を4から3に削減することを示した
同次活性化関数と行列乗算構造を持つネットワークにおける線形補間の無制限の損失障壁を示し、普遍的な線形モード接続の仮定に異議を唱えた
対称性軌道に沿って一定の損失を維持し、経験的検証で線形パスよりも著しく低い障壁を示す、リー代数に基づく明示的な曲線(γ_M(t,w) = exp(tM)・w)を開発した
接続曲線κ_maxの最大曲率と線形補間の精度を結びつける定理6.2を確立し、単純なモデル平均化手法が成功するための理論的基盤を提供した
要点
線形ネットワークの最小値における連結成分の数は、GL_h(R)^(l-1)対称群のトポロジーにより2^(l-1)に等しく、スキップ接続がこの数を減少させ、成分をマージする
同次活性化関数を持つネットワークは、ニューロンの順列を適用した後でも、スケーリング対称性により、最小値間の線形補間パスに沿って任意に大きな損失障壁を持つ可能性がある
連続的なパラメータ対称性は、微分幾何学の原理的な数学的ツールを使用してナビゲートできる、自然な低損失多様体を生成する
近似線形モード接続は、対称性によって誘発される接続曲線が有界な曲率を持つ場合に発生し、線形補間が成功する定量的な基準を提供する

How DNNs break the Curse of Dimensionality: Compositionality and Symmetry Learning
概要
ネットワークの深さに線形にスケールする新しい汎化誤差を導出した。この誤差は、DNNsが高次元関数、特に基礎的な対称性を持つ関数に対して、いかにして良好な汎化と近似率を達成するかを明確にしている。
手法
- アコーディオンネットワーク(AccNets)を導入し、厳密な汎化誤差導出をした
- 浅いNN向けのF1ノルムに基づくboundを被覆数引数を用いて拡張し、作用素ノルムよりもリプシッツ定数を強調することで、AccNetsの新しい汎化誤差を導出した
- DNNがソボレフ関数の構成を効率的に近似できることを示し、それが対称性を学習し次元の呪いを回避する能力に対する理論的説明を提供した

と紹介ブログ
概要
1次マルコフ連鎖で訓練された単層トランスフォーマーの学習ダイナミクスと初期化の影響を厳密に分析している。トランスフォーマーのパラメータがグローバルまたはローカルな最適解に収束する正確な条件を、初期化とデータの特性の両方に関連付けて証明し、パラメータ初期化のための経験的に検証されたガイドラインを提供している
問題
- 訓練中のトランスフォーマーが複雑な損失曲面をどのように探索するかについての理解が限定的であった。
- 初期化がトランスフォーマーのパラメータの最適解または準最適解への収束にどのように影響するかについての正確な説明が欠如していた。
- トランスフォーマーの損失ランドスケープにおける局所的最小値の存在は知られていたが、モデルがこれらの点に到達するダイナミクスはほとんど特性化されていなかった。

高次元特異点としてのLLCに対称的な構造はあるのか

とりあえず総まとめ
- Geometry of the Loss Landscape in Overparameterized Neural Networks: Symmetries and Invariances
- Symmetries, flat minima, and the conserved quantities of gradient flow
- Deep Networks on Toroids: Removing Symmetries Reveals the Structure of Flat Regions in the Landscape Geometry
- Symmetry Induces Structure and Constraint of Learning
- Structural Degeneracy in Neural Networks (thesis)
- A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
- How DNNs break the Curse of Dimensionality: Compositionality and Symmetry Learning
- Understanding Mode Connectivity via Parameter Space Symmetry
- Symmetry Breaking in Neural Network Optimization: Insights from Input Dimension Expansion
- Bernstein-Kouchnirenko-Khovanskii with a symmetry( 数学)
- Identifying Sparsely Active Circuits Through Local Loss Landscape Decomposition
- Ubiquitous Symmetry at Critical Points Across Diverse Optimization Landscapes