Open3

NNの特異点とLLC(局所学習係数)の推定についての研究メモ

xiangzexiangze

先ずRCLT(学習係数)の計算方法として特異点解消をつかった定義に沿った方法(KLダイバージェンスKのゼータ関数
\zeta(z)=\int K(w)^z\phi(w)dw
=\sum_\alpha \int_{U_\alpha \cap g^{-1}(C) u^{kz+h}b(u)du}の最大の極)
\lambda=\min_{\alpha}\max_{1<=j<=d}(\frac{h_j+1}{k_j})
Algebraic geometry and statistical lea rning theory
https://aimath.org/pastworkshops/modelselectionrep.pdf
https://arxiv.org/abs/2312.16187
という代数的定義(\alphaは多様体の分割)と自由エネルギー
F = nS_n + \lambda \log n - (m - 1) \log \log n + O_p(1)
の係数であることから導ける数値的近似
\hat{\lambda}(\omega^*)=n\beta E_{w|w^*,\gamma} [ [l_n(\omega)]- l_n(\omega^*)]
がある(Loss Landscape Degeneracy Drives Stagewise Development in Transformersより、E_{w|w^*,\gamma}は局所ギブス事後分布p(w|w^*,\beta,\gamma) \propto \exp{-n\beta l_{n}(w) -\frac{\gamma}{2}|w-w^*|^2}
を意味しnはデータ数、\betaは逆温度,\gammaはパラメーター)。後者は局所最適解のパラメーター\omega^*での局所学習係数として特異学習理論界隈でよく計算されている
https://zenn.dev/xiangze/articles/2249f2221b0a5d
https://zenn.dev/xiangze/articles/cf20c6e29f70a2
Modes of Sequence Models and Learning Coefficients
Structural Inference: Interpreting Small Language Models with Susceptibilities
Loss Landscape Degeneracy Drives Stagewise Development in Transformers
最近ではTransformerの学習中、in-context learning中の動作に関する解析もなされている。

汎化性との関係

パラメーター空間での対称性が特異性と密接に結びついている
Understanding Mode Connectivity via Parameter Space Symmetry
Identifying Sparsely Active Circuits Through Local Loss Landscape Decomposition