Open1日前にコメント追加3

NNの特異点とLLC(局所学習係数)の推定についての研究メモ

先ずRCLT(学習係数)の計算方法として特異点解消をつかった定義に沿った方法(KLダイバージェンスKのゼータ関数

\zeta(z)=\int K(w)^z\phi(w)dw

=\sum_\alpha \int_{U_\alpha  \cap g^{-1}(C) u^{kz+h}b(u)du}の最大の極)

\lambda=\min_{\alpha}\max_{1<=j<=d}(\frac{h_j+1}{k_j})

Algebraic geometry and statistical lea rning theory

https://aimath.org/pastworkshops/modelselectionrep.pdf

https://arxiv.org/abs/2312.16187

という代数的定義(\alphaは多様体の分割)と自由エネルギー

F = nS_n + \lambda \log n - (m - 1) \log \log n + O_p(1)

の係数であることから導ける数値的近似

\hat{\lambda}(\omega^*)=n\beta E_{w|w^*,\gamma} [ [l_n(\omega)]- l_n(\omega^*)]

がある(Loss Landscape Degeneracy Drives Stagewise Development in Transformersより、E_{w|w^*,\gamma}は局所ギブス事後分布p(w|w^*,\beta,\gamma) \propto \exp{-n\beta l_{n}(w) -\frac{\gamma}{2}|w-w^*|^2}

を意味しnはデータ数、\betaは逆温度,\gammaはパラメーター)。後者は局所最適解のパラメーター\omega^*での局所学習係数として特異学習理論界隈でよく計算されている

https://zenn.dev/xiangze/articles/2249f2221b0a5d

https://zenn.dev/xiangze/articles/cf20c6e29f70a2

Modes of Sequence Models and Learning Coefficients

Structural Inference: Interpreting Small Language Models with Susceptibilities

Loss Landscape Degeneracy Drives Stagewise Development in Transformers

最近ではTransformerの学習中、in-context learning中の動作に関する解析もなされている。

 汎化性との関係パラメーター空間での対称性が特異性と密接に結びついている

Understanding Mode Connectivity via Parameter Space Symmetry

Identifying Sparsely Active Circuits Through Local Loss Landscape Decomposition

xiangze

γ=n/p一定の場合に注目
https://zenn.dev/green_tea/articles/2875587a23442a#2.-リッジレス最小二乗推定器のバイアスとバリアンス
https://arxiv.org/abs/1903.08560

xiangze

DNNに限らないBenign overfitting