NNの特異点とLLC(局所学習係数)の推定についての研究メモ

先ずRCLT(学習係数)の計算方法として特異点解消をつかった定義に沿った方法(KLダイバージェンスKのゼータ関数
Algebraic geometry and statistical lea rning theory
という代数的定義(
の係数であることから導ける数値的近似
がある(Loss Landscape Degeneracy Drives Stagewise Development in Transformersより、
を意味しnはデータ数、
Structural Inference: Interpreting Small Language Models with Susceptibilities
Loss Landscape Degeneracy Drives Stagewise Development in Transformers
最近ではTransformerの学習中、in-context learning中の動作に関する解析もなされている。
汎化性との関係
パラメーター空間での対称性が特異性と密接に結びついている
Understanding Mode Connectivity via Parameter Space Symmetry
Identifying Sparsely Active Circuits Through Local Loss Landscape Decomposition

γ=n/p一定の場合に注目

DNNに限らないBenign overfitting