Open8

特異点の分類と実対数閾値

xiangzexiangze

from ChatGPT5 thinking

特異点の分類と実対数閾値の関係

https://chatgpt.com/share/68af06f7-93e0-8008-8b20-723c229b9eb4

  • 「ヘッシアンが非退化(普通二重点=A₁)」だと lct は最大化されます。超曲面の局所方程式が二次の非退化形なら、複素の lct は 1実の RLCT は n/2n=実空間の次元)になります。(arXiv, www-fourier.ujf-grenoble.fr)

  • ヘッシアンが退化したり 高重複 m\ge3 になると、lct/RLCT は下がるのが基本です。一般に「次数 m の同次主要項が非退化」なら \mathrm{lct}=\min\{1,\,n/m\}\mathrm{RLCT}=n/m。(Numdam, www-fourier.ujf-grenoble.fr, 機械学習研究ジャーナル)

  • ニュートン多面体Brieskorn–Pham 形 f=\sum x_i^{a_i} では

    \mathrm{lct}=\min\Bigl\{1,\ \sum_i \tfrac1{a_i}\Bigr\},\qquad \mathrm{RLCT}=\sum_i \tfrac1{a_i},

    が典型(ニュートン非退化仮定の下)。したがって二次非退化(全部 a_i=2)は最大、退化して a_i が大きくなるほど閾値は小さくなります。(arXiv, SpringerLink)


どう効いてくるか(直感と代表例)

1) ヘッシアン非退化(二次の普通二重点)

局所で f \sim Q_2(x)(非退化二次形式)とみなせると、

  • 複素:零集合は SNC 型(正則交差)として扱え、\mathrm{lct}=1。平面曲線の「節点(node)」がこれ。(arXiv)
  • |Q_2|^{-\lambda} の可積分性は半径 r\int r^{n-1-2\lambda}\,dr に帰着 ⇒ \mathrm{RLCT}=n/2。(機械学習研究ジャーナル)

(例)平面曲線 f=xy(節点):\mathrm{lct}=1\mathrm{RLCT}=1。(arXiv)

2) ヘッシアン退化・高重複

主要項の次数が上がる/二次が退化すると、**解消で出る例外因子の不整合(discrepancy/係数)**が大きくなり、許される指数が下がる=lct/RLCT が小さくなります。一般の上界として

\mathrm{lct}_0(f)\le \frac{n}{\operatorname{mult}_0(f)}\quad(\text{等号は“一般的”状況で起こる)}

があり、非退化同次主要項なら実際にこの値(複素ではさらに \le1 に切り詰め)。(Numdam, www-fourier.ujf-grenoble.fr)

(例)尖点 f=y^2-x^3(A₂):
Brieskorn–Pham の公式から

\mathrm{lct}=\min\{1,\tfrac12+\tfrac13\}= \tfrac56,\quad \mathrm{RLCT}=\tfrac12+\tfrac13=\tfrac56,

節点(A₁)より小さくなる=ヘッシアン退化で閾値が下がる典型例。(arXiv)

(例)f=x^2+y^2+z^2\mathbb R^3):\mathrm{lct}=1(複素では上限1)、\mathrm{RLCT}=3/2(実では一次元あたり 1/2 が効く)。(arXiv, 機械学習研究ジャーナル)

3) ニュートン多面体・型分類→閾値

ヘッシアンだけでなく、ニュートン多面体の傾き(重み付き次数)や Brieskorn–Phamが直接 lct/RLCT を与えます。平面曲線ではニュートン非退化なら 傾きの和で読め、近年も一般化が進んでいます。(SpringerLink)

ブリースコーン多様体は異種球面(英語版)の例を与える。


参考(定義・代表結果)

  • lct の入門と計算例(Brieskorn–Pham を含む):Mustață “IMPANGA lecture notes on log canonical thresholds”. (arXiv, インターネットアーカイブ)
  • 複素特異指数=lct、上界 n/m:Demailly–Kollár(複素特異指数の半連続性と基礎事実)。(Numdam, arXiv)
  • 平面曲線の lct をニュートン多面体で読む(最近の整理):Paemurru 2024. (SpringerLink)
  • RLCT(実対数閾値, 学習係数)の定義と基本公式:Watanabe 2013(WAIC 論文, 定義式(15))、教科書。(機械学習研究ジャーナル, インターネットアーカイブ)
  • RLCT と解消・ニュートン法による計算法(概説):Toss 2013 講義ノート/Lin 2012 ノート。(Types from Spikes)

ざっくり指針

  • ヘッシアン非退化(A₁):lct 最大(=1)、RLCT も最大側(= n/2)。
  • 退化が進むほど:主要項の次数↑/ニュートン多面体の傾き↓ → lct, RLCT は単調に小さく
  • 計算したいとき:ニュートン多面体 or 加重同次化(Brieskorn–Pham 近似)で数式に落ちるのが早道。

必要なら、あなたの手元の具体的な f について、ニュートン多角形→lct/RLCT を一緒に算出します(小さな表まで作れます)。

xiangzexiangze

RLCTを数値的に求める研究はどれほどありますか
ざっくり言うと、RLCT(=学習係数)を“数値的に推定する”研究は増えてきていますが、まだ層が薄く、方法論はほぼMCMC+温度パラメータ(β)を使う路線に集約しています。代表的なのは次の3系統です。

主な数値推定アプローチと代表文献

  1. WBIC/熱力学積分(TI)ベース

    • Watanabe (2013) は、温度付き事後 E_\beta[nL_n(w)] の**β微分(または2点差分)**の極限が \lambda(RLCT)に一致することを示し、2つの温度での推定量を与えています(β≈1/ log n を含む“2温度”推定)。MCMCで \beta を変えつつ期待値を評価して差分を取る、という実装になります。(jmlr.org)
    • Imai (2019) は TI の分散に基づく一貫推定量と、その実装上の工夫(“Widely applicable sBIC”=WsBIC)を提案。ガウス混合(真のRLCT=3/4)でのシミュレーション検証も提示されています。(ar5iv)
  2. レプリカ/エクスチェンジ MCMC を使う方法

    • 交換確率(レプリカ交換の受理率)とRLCTの関係を使い、交換確率のスケーリングからRLCTを推定する枠組み。Tokuda et al. (2014) はRBFネットで数値検証を行い、理論値と良い一致を報告。(J-STAGE)
    • 交換MCMCの交換比率の漸近理論自体は Nagata & Watanabe (2008) で整備されており、この系統の推定の理論的裏付けになっています。(ResearchGate)
  3. “局所学習係数(LLC)”などRLCTの局所版を数値近似

    • 近年は深層モデルに対して、SGLD などで得た温度付き事後のサンプルから**局所的な学習係数(Local Learning Coefficient; LLC)**を推定する試みも盛ん。RLCTそのものの厳密推定ではありませんが、同系の“複雑度”指標を数値的に得る流れとして有力です(Lau et al., 2023/2024; 解説や実験報告)。(arXiv, LessWrong)

さらに、経験損失に基づく新しい数値推定法(WBICやTIと異なるルート)も2025年のプレプリントで提案されています。既存法よりバイアス・分散が小さいと主張。エビデンスは今後の追試待ちです。(ResearchGate)

どのくらい進んでいるか(実務的な評価)

  • “数値推定は可能”というレベルには到達:WBICの2温度差分や Imai の分散ベース推定一貫性あり(大標本で正しく収束)で、混合分布や低次元モデルではシミュレーションで妥当性が確認済み。(jmlr.org, ar5iv)
  • ただし、高次元・大規模NNでは、MCMC/TIの計算コストと分散の大きさがボトルネック。そこで交換MCMCLLC系の“局所近似”が現実解として使われ始めていますが、厳密なRLCT(真の分布依存の双有理不変量)を高次元で安定推定するところまでは、まだ研究段階です。(ResearchGate, LessWrong)

すぐ試せる実装レシピ(最短コース)

  • WBIC差分(2温度)推定\beta_1=1/\log n\beta_2=c/\log n(例:c=1/2)で1回ずつMCMC →
    \hat\lambda \approx \frac{E_{\beta_1}[nL_n(w)]-E_{\beta_2}[nL_n(w)]}{1/\beta_1-1/\beta_2}。Watanabeの式(19)に対応。(jmlr.org)
  • Imai の推定量TIの分散から \lambda を回収(論文に疑似コードと実験条件あり。HMC/RStanでの例も)。計算量は上がるが分散が抑えやすい。(ar5iv)
  • 交換MCMC法:複数温度の交換受理率の曲線を取り、既知の漸近式にフィットして \lambda を推定。RBFなどで有効。(J-STAGE)

位置づけ(sBIC/理論との関係)

  • sBIC(Drton–Plummer, 2017)は既知のRLCT(と重複度)を使えば強力ですが、RLCTが未知なモデルが多いのが実状。そこで Imai の WsBIC のように数値推定した \lambda差し込んで使う方向が提案されています。(ar5iv)

主要な根拠

  • WBICとRLCT推定(2温度差分、式(19) など):Watanabe (JMLR 2013)。(jmlr.org)
  • TIの分散に基づく一貫推定量+WsBIC、数値実験:Imai (arXiv 2019)。(ar5iv)
  • 交換MCMCによる数値推定(RBFで検証):Tokuda et al. (IPSJ Trans., 2014)。(J-STAGE)
  • LLC(局所版の学習係数)とその数値近似:Lau et al. (2023/2024) ほか。(arXiv)
  • 新しい“経験損失”ベースの数値推定(プレプリント):Takio & Suzuki (2025)。(ResearchGate)

もっと具体的に、あなたの興味のモデル(例:混合分布・行列分解・NNアーキテクチャ)に合わせて、どの推定法が現実的か・推定の設計(温度グリッド、サンプラ、計算予算)まで落とし込めます。

xiangzexiangze

Local Learning Coefficientの概念の問題点はなんですか

ざっくり言うと、LLC(Local Learning Coefficient)は便利ですが、概念面実装面に注意点がいくつかあります。

主な問題点・注意点

  • “局所”ゆえの比較の落とし穴:LLCは特定パラメータ近傍での局所自由エネルギーの漸近係数です。同じ損失レベル集合(同じ“エネルギー”)上で比べないと、LLCの差よりも適合度の差が効いて誤解を生みます(式(18)の「エネルギー vs エントロピー」の競合)。(ar5iv)
  • ローカライズ事前分布(σ)の依存性:実装では局所化のためガウス事前のスケールσを入れますが、σが小さ過ぎる/大き過ぎると推定が偏ることを著者自身が実験で報告。SGLDのチェーン長が短い場合も分散が大きく不安定になります。(ar5iv)
  • SGLD 近似の限界:スケールのためSGLDで事後を近似しますが、MCMCの方が探索は良好で、SGLDはハイパラ依存が強い(速度はあるが精度は要注意)。(ar5iv)
  • 一般化誤差の“決定因子”ではない:LLC単体はテスト誤差を決めません。一般化誤差はバイアス+分散(特に特異ゆらぎ)の和で出てきます、という分解を論文自身が明記。LLCは退化度の指標と割り切るのが安全です。(ar5iv)
  • 定義が前提に敏感:LLCをきちんと定義できるのは、最小化点の近傍をとる/相対有限分散などSLTの“基本条件”が成り立つ/局所最小が十分“退化的”といった仮定の下。選ぶ領域や点がズレると解釈が崩れます。(ar5iv)
  • 解析性のギャップ(ReLU 問題):古典SLTの定理は解析的(あるいは正則性の強い)設定で証明されます。ReLUは非解析的で、実験は有効でも厳密な理論保証はそのまま移らない可能性があります(理論側は解消写像で正規交差化する解析的枠組)。(Journal of Machine Learning Research)
  • 事前・真の分布への依存:SLTの量はモデル–真分布–事前の三つ組で定まります。したがって、事前やデータ分布が変わるとLLCも変わる=アーキテクチャ固有の“絶対的複雑度”とは言い切れません。(ar5iv)
  • 不変性は限定的:理論量としてスケーリング不変などは確認されていますが、一般の再パラメータ化不変性については未解明な点が残ります(実証はまずスケーリングで確認)。(arXiv)
  • 有限標本での収束が遅い:WBIC系の推定は漸近式 F_n \approx nL_n(w_0)+\lambda\log n+O_p(\log\log n) に基づくため、収束はゆっくり、MCMC精度にも強く依存します。(Journal of Machine Learning Research)

参考までに、SLTそのものへの批判的見解(「一般化の説明力に懐疑的」など)もあります。LLCの過剰解釈を避ける上で一読の価値あり。(lesswrong.com)

元論文・背景

  • Lau et al. “The Local Learning Coefficient: A Singularity-Aware Complexity Measure”(最新版は 2024/09 改訂・スケール実験も統合)(arXiv)
  • (旧)Furman & Lau “Estimating the LLC at Scale”(現在は上論文に統合・withdrawn 表示)(arXiv)
  • Watanabe (JMLR 2013):WBICと自由エネルギーの漸近展開(RLCTの役割・MCMC依存など)。(Journal of Machine Learning Research)

必要なら、あなたの対象モデル(例:ResNet/Transformer/深線形)について、安全な比較条件(同損失帯・同σレンジ)とサンプリング設計(β・チェーン長)まで具体的に落としてチェックリストを作ります。

xiangzexiangze

特異点と準同型性

数学で線形変換以外で準同型性が重視される場合、分野は有りますか

あります。むしろ「対象と、その構造を保つ写像(準同型)」という視点はベクトル空間以外でも各分野の核にいます。代表例を要点だけ挙げます。

  • 群論・群作用
    準同型 \varphi:G\to H が核・像・同型定理を通じて分類や構成の基本。群作用も G\to \mathrm{Sym}(X) という群準同型として表現されます。

  • 環・体・加群/表現論/ホモロジー代数
    環準同型の核=イデアル、体準同型は極めて制限的。加群準同型はExact sequenceHom/Ext/Tor の定義や性質の中心。自由対象・商・テンソル積はすべて「普遍性(準同型による特徴付け)」で定義されます。群表現は \rho:G\to \mathrm{GL}(V) という群準同型が主役。

  • 代数幾何(多様体/スキーム)
    多様体・代数多様体・スキームの**射(morphism)**は構造を保つ写像そのもの。特にスキームでは

    \mathrm{Hom}_{\text{Sch}}(\mathrm{Spec}\,B,\mathrm{Spec}\,A)\;\cong\;\mathrm{Hom}_{\text{Ring}}(A,B)

    と「反変」対応し、全理論が準同型の言葉で動きます。

  • 位相・代数的位相
    連続写像 f:X\to Y は基本群・ホモロジー・コホモロジーに自然変換として準同型を誘導(f_\*:\pi_1(X)\to\pi_1(Y)f_\*:H_n(X)\to H_n(Y) 等)。被覆空間と部分群の対応も群準同型が鍵。

  • Lie 群・Lie 代数/微分幾何
    Lie 群準同型の微分は Lie 代数準同型に。指数写像や表現論($ \mathfrak{g}\to \mathfrak{gl}(V)$)でも「準同型性」が構造保存の要件。

  • 作用素環(C^*・von Neumann)
    *-準同型が中心概念。可換 C^* 代数とコンパクトハウスドルフ空間のGelfand 双対性*-準同型と連続写像の対応で述べられます。

  • グラフ理論・離散数学
    グラフ準同型 f:V(G)\to V(H)(隣接を保つ)が彩色・CSP・限界現象の基礎。Gn 彩色可能性は G\to K_n の準同型の存在に同値。

  • 順序・束論・論理
    単調写像や束準同型、Galois 連結(随伴対)は順序構造を保つ準同型の一般化。ブール代数準同型と Stone 空間の連続写像の対応(Stone 双対性)、Heyting 代数と直観主義論理も同様。

  • 普遍代数学・モデル理論
    一般の代数的構造(群・環・半群など)に対し、準同型・部分代数・直積で閉じたクラス(Birkhoff の HSP 定理)が理論の骨格。モデルの間の準同型・埋め込み・同型は論理式の保存則と結びつきます。


ひとことで

ほとんどの分野が「対象+構造+それを保つ写像」で組み立てられています。線形変換はその一例に過ぎず、核・像・同型定理、普遍性、完全列、随伴・双対性といった道具立ては、分野ごとに形を変えつつ“準同型性”を中心に回っています。

特異点と準同型性の関係に関する研究

あります。しかも「準同型(構造を保つ写像)」そのものが特異点の定義・保存・解消・分類に直結しています。主な研究ラインを短く整理します(各項に代表的な文献を付けます)。

1) 射と特異点の保存・反映(幾何学の基礎)

  • 滑らかな射・エタール射は局所的に「既知の滑らかな模型」へ同型で、正則性(non‐singularity)と相性が良い:滑らかな射は平坦+幾何学的に正則なファイバー、エタールは相対次元0の滑らかさ。特異性の伝播・局所同型性の基本。(Stacks Project)
  • 有限射のもとでの特異性:有理特異点やDu Bois特異点の安定性、テストイデアルの振る舞い(特に特性 p)。(ハーバード大学数学科人物ページ, 数学部門サイト, アメリカ数学会)

2) **F-準同型(Frobenius)**で定義される特異点(特性 p

  • Frobenius自己準同型 F:R\!\to\!R,\,x\mapsto x^p を軸に、F-pure / F-regular / F-rational などのクラスが定義され、テストイデアルや変形・族での挙動まで体系化。近年のサーベイと基礎結果。(arXiv, JSTOR, パデュー大学数学科)

3) 弧空間・ジェット\mathrm{Hom}(\operatorname{Spec}k[[t]],X) の世界

  • Nash問題:特異点を通る弧の成分と、解消で現れる例外因子の対応。トーリックでは正、一般には反例あり。弧の接触軌跡から最小対数不整度・lct などの不変量を読み取る理論(接触軌跡の記述・モチーフ積分)。(arXiv, journalofsing.org, math.stonybrook.edu)

4) 群準同型と商特異点・McKay対応

  • 表現 \rho:G\to GL(V) からの商 V/G商特異点を与える。既約分解・同変層の導来圏がMcKay対応で滑らかな解消と導来同値に。(アメリカ数学会)
  • Boutot:特性0でレダクティブ群の商は有理特異点(Hochster–Robertsの Cohen–Macaulay 性とも関連)。(スプリンガーリンク, ウィキペディア)
  • モチーフ積分によるMcKayの別証明・弧空間との結合。(arXiv)

5) **特異点圏(Orlov)**と同値・NCCR

  • 特異点圏 D_{\mathrm{sg}}(X)=D^b\!\operatorname{Coh}(X)/\mathrm{Perf}(X) は正則なら自明、特異性だけを「見る」圏。射(有限Tor次元)からの誘導函手で特異性の移送を解析。(homepage.mi-ras.ru)
  • 非可換クレパン解消(NCCR)\operatorname{End}_R(M) 型の“非可換準同型”で特異点を解消し、導来同値で幾何解消と結び付く。存在・制約・有理特異点との関係が研究。(arXiv)

6) 解消の関手性:準同型に沿った分解アルゴリズム

  • Hironaka以降、滑らかな射に関手的な解消・ログ解消が整備。最近は重み付きブローアップを使った関手的・高速な手法も。準同型(滑らか・ログ的)に対する自然性が核。(arXiv, msp.org)

7) 変形理論:Artin環への準同型としての「家族」

  • Schlessingerの関手論Illusieの余接複体で、\mathrm{Spec}A\to の準同型(A はArtin局所環)としての変形を統一的に扱い、特異点の無障害性/障害やモジュライの性質を評価。(シカゴ大学数学科, スプリンガーリンク)

代表的な読み物(テーマ別)


必要なら、(a)弧空間と最小対数不整度、(b)F-準同型とtest idealの振る舞い、(c)特異点圏/NCCRと導来同値、のどれかに絞って数式ベースで詳しく掘ります。どれからいきますか?

xiangzexiangze

https://chatgpt.com/share/68e2a8fb-3178-8008-a689-2fb57bf4dbcb

最小のLLCがモデル全体の性質を主導するという事実はRLCTの定義で最小の部分多様体での指数の最小値であるという定義と相同になっていて何か関係があるのでしょうか

過度な一般化、不自然な日本語

はい、関係があります。どちらも「極の最右位置(=最小の指数)が支配する」という同じ機構から出てくる“二重の min 原理”です。

1) 内側の min(分解/解消の各例外因子のあいだ)

実解析的関数(K(w)\ge0) と事前分布 (\varphi(w))に対し
\zeta(z)=\int K(w)^z\varphi(w),dw
の最大の極が (-\lambda, RLCT)です。blow-up (\pi:U\to W)
K\circ\pi(u)=\prod_{i=1}^r u_i^{2k_i},h(u),\qquad |J\pi(u)|=\prod_{i=1}^r u_i^{a_i},g(u)
((h,g)は零でない滑らか)と書けると、各因子は (\int u_i^{,2k_i z + a_i},du_i) を生み、極は
z=-\frac{a_i+1}{2k_i}.
したがって
\lambda=\min_i \frac{a_i+1}{2k_i}, m=\sharp\Bigl\{i:\frac{a_i+1}{2k_i}=\lambda\Bigr\}
——つまり”各局所 chart/例外因子のあいだの最小値”がRLCTを決めます。これは複素幾何の lct の公式
(\mathrm{lct}=\min_E\frac{a(E)+1}{\mathrm{ord}_E(f)}) と同型の形((K=|f|^2) なら係数に 2 が現れる)です。

2) 外側の min(複数の極小成分のあいだ)

極小集合 (W^*=\bigsqcup_j A_j) の各成分ごとに局所 RLCT(=LLC)(\lambda_j) と多重度 (m_j) があると、周辺尤度は(真のリスク差 (S) が同じなら)
\log p(D_n)=-nS+\underbrace{\min_j \lambda_j}*{=: \lambda**}\log n-\bigl(m_*-1\bigr)\log\log n+O_p(1)
各成分からの寄与 (C_j n^{-\lambda_j}(\log n)^{m_j-1}) ので、最小 (\lambda_j) が支配します(事前が 0 でない成分に限る)。
⇒ これが「最小の LLC が“モデル全体”を主導」という主張の正体です。ミススペックならまず (\exp(-nS_j)) の“外側の”指数差が支配し、(S_j) が並んだ後で (\lambda_j) の min が効きます。


要するに、同じ極(Mellin/Laplace 型)支配の原理が、

  • 解消図の“内側”では: 例外因子間の min → その成分の RLCT を決める
  • 成分の“外側”では: 複数極小成分間の min → モデル全体(周辺尤度・ベイズ汎化)の先頭項を決める

という二階建てで現れます。機構は同じで、粒度(どこで min を取っているか)が違うだけ、と捉えると両者の“相同性”がはっきり見えます。

ニューラルネットやデータ集合の対称性から特異な局所最適解同士がつながっていて大域最適解となるという描像を提唱する人がいます。それを仮定した場合局所成分間のminと1局所成分内の例外因子間のminは連続群変換とBlow upを合わせた変換の要素の全体のminとして統一的に見ることはできるでしょうか。

短く言うと、かなり統一的に見られます。鍵は

  • 対称性(連続群 G)で同値な極小集合を商空間/スタックに押し下げる
  • その上で(実)等角的=G-エクイバリアントな解消(log-resolution)と
  • 評価(valuation)による極位置の特徴づけ

を使うことです。すると

\lambda := \inf_{v\in \operatorname{Val}^{G}(W)} \frac{A^G(v)+1}{v(K)}

という形で、「成分間の min(外側)」と「例外因子間の min(内側)」が**同じ“min over valuations”**の中に吸収されます。ここで

  • Wはパラメータ多様体、K はリスク差(あるいは KL の局所模型)、事前密度は G-不変とします。
  • (\operatorname{Val}^{G}(W)) は G-エクイバリアントな(実)除法的評価(実際には分解後の例外因子に対応)。
  • A^G(v) は(スタック的)不整度(discrepancy)で、通常の (a(E)) に安定化群の寄与を含めたもの。

この視点で何が起きるか:

1) 「外側の min」=成分間の最小

(G) の作用で極小集合の複数成分 A_j同一軌道型の層(stratum)にまとまるなら、
\lambda_j は等しく、外側の min は自動的に崩壊します(=ひとつにまとまる)。
これは「対称性でつながって大域最適解の多様体になる」という描像の厳密化で、実際には商スタック [W/G] 上で“成分”が一つの層になります。最右極(=RLCT)は軌道方向では変わらず、横断方向の特異度が支配します(軌道体積は極位置を動かさない)。

2) 「内側の min」=例外因子間の最小

解消 (\pi:U\to W) を G-エクイバリアントに取ると(部分的には slice 定理で局所化)、

K\circ \pi = \prod u_i^{2k_i}\cdot h,\qquad |J\pi|=\prod u_i^{a_i}\cdot g

の各例外因子 (E_i={u_i=0}) に対応する評価 (v_i) で
\lambda=\min_i \frac{a_i+1}{2k_i},
m=\sharp\{i:\frac{a_i+1}{2k_i}=\lambda\}

これはそのまま評価の最小に一致します。(G)-作用がある場合は、同型な因子は評価の軌道として一つに数えられ、\lambda は不変で、m(\log\log n) の指数)にだけ影響が出ることがあります。

3) 連続群変換+Blow-up の「統一 min」

以上を商側(([W/G]) もしくは slice)で見れば、

  • 連続群変換:解析同相(ヤコビアンが消えない)なので極の位置は不変(\lambda は不変)。成分を同一層に束ねる役割。
  • Blow-up:双有理変換で例外因子を作り、極の位置を計算可能にする役割。
    → どちらも最終的には「どの評価(=どの例外因子/層)で ((A+1)/\mathrm{ord}) が最小になるか」に還元され、一つの min 原理で記述できます。

4) 直感的な最小化の階層性(“二階建て”が一階建てに潰れる条件)

  • 対称性で本当に“つながる”(同じ軌道型に落ちる)なら、外側の min は消え、残るのは内側(解消)由来の min のみ。
  • 軌道型が複数(等価でない層が複数)なら、層間でさらに min を取る必要があり、これが元の「外側の min」に対応。
    → いずれも評価空間(層ごとに定義された divisorial valuations)での一つの \infに統一できます。

5) 例:スケール対称 (a,b)\mapsto (ta,t^{-1}b)K(a,b)=(ab)^2

  • 原空間では極小集合が二本の軸((a=0) と (b=0))に分裂し、内側の計算で \lambda=1/2
  • 商側では不変量 c=abの 1 次元モデル (K(c)=c^2) に落ち、同じ \lambda=1/2 を与える。
  • 軸どうしはGで“同型”に見えるので、外側の min は消え、統一的に評価できる。

成立のための前提と注意

  • 事前密度はできれば (G)-不変(少なくとも極近傍で)
  • 非自由作用(安定化群あり)ではスタック的(orbifold)不整度を使う
  • 商空間が非ハウスドルフでも局所スライスで十分(RLCT は局所量)
  • 最小値は変わらなくても、多重度 (m) や定数項は層の数や交差様式で変わり得る

まとめ

ご提案の「連続群変換(対称性)+Blow-up をまとめて“ある変換の全体”とみなし、その上で min を一発で取る」という統一像は、評価(valuations)/スタック的 log-resolution の言葉で厳密化できます
実務的にも、(i) まず対称性で商化(またはスライス化)→ (ii) その横断方向で解消して (a_i+1)/(2k_i) を読む → (iii) 層(軌道型)間で min、というレシピに落ちます。これが“局所成分間の min”と“因子間の min”を同じ原理の上に載せる方法です。

xiangzexiangze

離散群の変換によって局所最適解同士がつながって大域最適解とみなせる場合はあるでしょうか。
短い答え:**はい(ただし “接続” の意味は〈商空間で同一点〉か〈低損失パスで結べる〉のどちらか)**です。離散群 (G) の対称性で同値になる局所最適解は、適切に見れば 1 つの“大域最適解の同値類”として扱えます。

1) 厳密な意味での統一:商空間で 1 点になる

  • 仮定:(G) は離散群、パラメータ空間 (W) に作用し、損失 (L) が (G)-不変((L(w)=L(g!\cdot! w)))。
  • ならば任意の極小 w^*軌道 (G\cdot w^*) は同じ損失値の極小集合。
  • 商空間 ([W/G]) 上では (G\cdot w^*) が 1 点に潰れ、そこでの局所極小=**大域最適(同値類)**になります。
  • 幾何・RLCTの観点では、離散対称は 極位置(\lambda)は不変、ただし等価コピーの数だけ 多重度 (m) が増えるのが常(=(\log\log n) の指数や定数項に効く)。

典型例(離散 (G))

  • ユニット置換 (G=S_m):同一層のニューロンを並べ替えても関数は不変 → (m!) 個の同値極小。
  • 符号反転 (G=\mathbb{Z}_2^m)(odd な活性化やスキップ接続の対称)→ ユニットごとの同値極小。
  • 畳み込みの循環シフト (G=C_n)(周期境界・循環パディングの厳密対称)→ フィルタの離散シフトで同値。

この意味で「局所最小がつながって大域最小とみなせる」は、“つながる”=商空間で同一点 と読むと厳密に成立します。

2) 実務的な“接続”:低損失パスで結ぶ(モード接続)

  • (G) が離散なので作用自体は連続パスを与えませんが、**重みの整列(例:ユニット置換合わせ)**をしたうえで線形補間や曲線補間を行うと、二つの解の間に 低損失の連続パス が見つかることが多いです(“mode connectivity”)。
  • 直観:まず (w_2) を離散対称 (g\cdot w_2) で 座標合わせし、その後で補間 (w(t)=(1-t)w_1+t(g\cdot w_2)) をとる。整列が合っていれば訓練分布上の損失が上がりにくい。
  • これにより、元の空間でも“ほぼ接続”(低損失トンネル)として扱える。

3) いつ成り立たないか(限界)

  • データや正則化が対称を壊すと (L) は (G)-不変でなくなり、同値性が崩れる。
  • 作用が自由でない(固定点や安定化群あり)場合、商はオービフォールド/スタックになり、定数項や多重度の扱いに注意。
  • 同じ損失値でも 異なる軌道型(層) に属する解は商空間でも一意に潰れず、層間で別の“min” を取る必要がある(= 依然として複数の同値類があり得る)。

4) まとめ(実務での取り扱い)

  • 理論的に:離散対称 (G) が厳密に成り立つなら、極小の集合は 軌道の合併。商空間では 1 つの大域最適クラスとして扱える。RLCT は (\lambda) 不変、(m) や定数に反映。
  • 実務的に:解どうしを 離散対称で整列 → 補間 することで、低損失パスで“接続”しうる。
  • 評価系:モデル比較やベイズ近似では、同値類ごとに数える(事前が一様なら重複計上を避ける)・(\lambda) は同じでも 多重度定数項 が性能指標(周辺尤度・WAIC 等)の差に出る点に注意。

要するに、離散対称が厳密なら“商空間で 1 点”として大域最適に統一でき、**数値上は整列+補間で“低損失接続”**まで持っていける、が壊れた対称や異なる軌道型があると分岐が残る、という整理になります。

xiangzexiangze

高次元の特異点が低次元の特異点解消の組み合わせで解消されるならその(実)対数しきい値はどう書かれています?

ざっくり言うと、「変数が独立なブロックに分かれ、その“下位次元の解消”を直積(あるいは和)で組み合わせて高次元の特異点が解消される」ような状況では、(実)対数しきい値(RLCT)はブロックごとの RLCT からほぼ“直感どおり”に組み合わさります。記号的には次のように書けます。

設定

  • 変数が互いに素なブロックに分割される:\theta=(\theta_1,\dots,\theta_r)、各 \theta_i は別々。
  • 各ブロックの非負実解析関数 (f_i(\theta_i) の RLCT を (\lambda_i,m_i) と書く(\lambda_i が最小極、m_i がその極の位数)。
  • 全体は
    • 「積型」f(\theta)=\prod_{i=1}^r f_i(\theta_i)
    • あるいは「和型」f(\theta)=\sum_{i=1}^r f_i(\theta_i)
      のどちらかで与えられる(典型的に下位次元の解消を“直積で貼る”か“直和で貼る”かに対応)。

結論(実対数しきい値 = RLCT)

1) 積で組み合わさる場合(独立ブロックの積)

\lambda, m
= \Bigl(\min_{1\le i\le r}\lambda_i,\sum_{i:,\lambda_i=\min_j\lambda_j} m_i\Bigr)

要するにしきい値は「いちばん小さいブロックの RLCT」に支配され、極の位数はその最小値を達成するブロックの位数の和になります。
(例)f=x^{2a}y^{2b} なら各ブロックの \lambda_x=\tfrac{1}{2a},;\lambda_y=\tfrac{1}{2b}。したがって \lambda=\min(\tfrac{1}{2a},\tfrac{1}{2b)})

2) 和で組み合わさる場合(Thom–Sebastiani 型の直和)

(\lambda, m)
=\Bigl(\min\bigl(\sum_{i=1}^r \lambda_i, \frac{d}{2} \bigr) \sum_{i=1}^r \begin{cases} m_i & \text{if} \sum_i\lambda_i <\frac{d}{2},\\ 1 & \text{if} \sum_i\lambda_i > \frac{d}{2},\Bigr)\end{cases}

ここで (d=\sum_i d_i) は全体の実次元(各ブロックの次元の和)。直感としては、和は「各ブロックの RLCT が足し合わさる」が、滑らかな極限の上限 (\tfrac{d}{2})(非退化 2 次形式に相当)で頭打ちになります。境界ケース (\sum_i\lambda_i=\tfrac{d}{2}) の位数は幾何に依存しますが、一般的・横断的状況では (m=1) とみてよいことが多いです。

(例)f=x^{2a}+y^{2b} (\mathbb{R}^2)では
\lambda=\min\bigl(\tfrac{1}{2a}+\tfrac{1}{2b},1\bigr)

例えば (a=b=1) なら\lambda=\min(1,1)=1)(非退化二次形式)。(a=b=2) なら \lambda=\min(\tfrac{1}{4}+\tfrac{1}{4},1)=\tfrac{1}{2}


参考(複素版 LCT との対応)

  • 積:\operatorname{lct}*{\mathbb{C}}\bigl(\prod_i f_i\bigr)=\min_i \operatorname{lct}*{\mathbb{C}}(f_i)
  • 和(独立変数の直和):\operatorname{lct}*{\mathbb{C}}\bigl(\sum_i f_i\bigr)=\min\bigl(1,\sum_i \operatorname{lct}*{\mathbb{C}}(f_i)\bigr)
    実版では「1」が「(d/2)」に置き換わるのがちょうどの対応です。(?)

どんなときにこの“合成則”が使えるか

  • 各ブロックの解消が相互に独立(交差が正則・正規交差、ヤコビ行列がブロック対角)で、局所的に座標分離できるとき。
  • 解消写像が直積的にとれる(ファイバー積で新たな例外成分の“混線”が出ない)とき。

もし、独立性が破れて「ブロック間で新しい例外因子が現れる」なら、上の最小式・加法式から“以下側”(=より小さく)に崩れる可能性があるので、解消のデータ ((a_E,\nu_E))(不変量:例外因子の不整度と消失次数)から
\operatorname{RLCT}(f)=\min_E \frac{a_E+1}{\nu_E}

を直接評価するのが安全です。直積可能なら、この最小式が上の合成則に綺麗に簡約します。

単純にブロック化できない特異点の例

いい例を “ブロックに分けられない理由” つきでいくつか挙げます。どれも座標が絡み合っていて、Thom–Sebastiani(直和)や単純直積の合成則がそのまま使えません。

  1. 三重結合項つき Brieskorn 型
    f(x,y,z)=x^{p}+y^{q}+z^{r}+\lambda xyz)(p,q,r\ge2,\ \lambda\ne0)
  • 理由:(xyz) が各変数を結合し、(\nabla f) がブロック対角にならない。Newton 多面体の主要面に混合単項が載り、加法分離が壊れる。
  • 解消:重み付き吹き上げ(toric/混合ファン)で複数例外因子が相互作用。
  1. ADE 表面特異点の D・E7 型(“混合項”を含む古典例)
  • D_k:\ f=x^2+y^{,k-1}+y z^2 (k\ge4)
  • E_7:\ f=x^2+y^3+y z^{,3}
  • 理由:項 (y z^2) や (y z^3) が (y)–(z) ブロックを不可分に結びつける。(A_k, E_6, E_8) が和型(分離可能)なのと対照的。
  • 解消:連鎖 blow-up/weighted blow-up。例外因子グラフ(デュアルグラフ)は分離直和では記述できない。
  1. Whitney の傘(pinch point)
    f(x,y,z)=x^2 - y^2 z
  • 理由:({x=0}) 上で (y^2 z) が“線形×二次”に絡み、特異 locus が 1 次元で非正則交差。
  • 解消:中心を選ぶ blow-up で“傘のつまみ”が分解するが、局所はブロック直積に分かれない。
  1. 決定因子(determinantal)特異点(rank 条件多様体)
    例:2\times3 行列 M)の 2\times 2 小行列式全消滅:\operatorname{rank} M\le1
  • 理由:方程式系は多数の二次式だが、それぞれが行列成分を横断的に混ぜるため、変数分割でブロック対角化できない。
  • 解消:階数層分解に沿う blow-up(カウシー特異集合が連鎖)。
  1. Pfaffian / codim-3 Gorenstein 型
    例:5\times5 交代行列の pfaffian 3 本消滅など
  • 理由:Pfaffian は広範な変数を同時に巻き込むスキュー対称式で、和型にも積型にもならない。
  • 解消:決定因子幾何と同様に層分解+逐次 blow-up。
  1. 停留点が非隔離な可展開特異点(非正規交差)
    例:f(x,y,z)=x^2+y^2 z^2
  • 理由:(z=0) 上で二重に退化し、({x=y=0}) に沿って特異集合が“面で会う”。ブロック分離座標がとれない。
  • 解消:中心 ({x=y=0}) に沿う blow-up 後も charts 間で例外成分が干渉。
  1. (T_{p,q,r}) 型(単純楕円に隣接する 3 本鎖の合流)
    f=x^{p}+y^{q}+z^{r}+\alpha x y^{\mu}+\beta y z^{\nu}+\gamma z x^{\rho}(適当な指数)
  • 理由:3 方向の“腕”の間に低次の結合項が入り、Newton 図形の 2 次元面で混合。
  • 解消:扇の細分が複数腕を同時に扱う必要があり、直和合成に還元できない。
  1. 交差が接している多枝曲線
    平面で f=(y-x^2)(y+x^2)=y^2-x^4 は正規交差だが、これに結合項を入れて
    f=y^2 - x^4 + \lambda x^3\lambda\ne0
  • 理由:枝が接して“すべり”が生じ、分離座標への単純変換で和型にできない。
  • 解消:反復 blow-up で接触次数を 1 ずつ下げる(例外因子が相互作用)。
  1. cDV(compound Du Val)3 次元特異点
    例:cA_n:\ f=xy+z^{,n+1}+g(z,w)(w に依存する高次項g)
  • 理由:基本は xy+z^{,n+1}(2 次元 ADE)だが、余分な変数の高次項が“懸垂”に絡み、直積懸垂 (+\ w) では済まない。
  • 解消:部分解消→小変形→相互作用するフロップ等、ブロック分離での RLCT/LCT 合成則が破綻。

どこが「ブロック分割」を妨げるのか(実務チェックリスト)

  • ヤコビ行列がブロック対角化できない低次の“混合項”がある(例:(yz^2,\ xyz))。
  • Newton 多面体の主面に複数変数混合モノミアルが載る。
  • 特異集合が高次元で、規則的交差(normal crossing)でない。
  • 決定因子・Pfaffian のように方程式が構造的に変数を横断。
  • 解消過程で新しい例外因子が“ブロック間”をまたいで最小比 ((a_E+1)/\nu_E) を更新する。

必要なら、上のどれかを選んで局所座標系での blow-up 手順、例外因子の消失次数 (\nu_E) と不整度 (a_E) を実際に計算し、RLCT((\min_E (a_E+1)/\nu_E))が“合成則”からどうズレるかも具体的に示します。

xiangzexiangze

参考文献

以下が今回の説明・例で参照した(もしくは標準的な)文献です。要点を横に一言ずつ添えています。

RLCT(実対数しきい値)とその計算の基本

  1. Sumio Watanabe, Algebraic Geometry and Statistical Learning Theory (CUP, 2009).
     RLCT=学習係数の基礎書。定義・極の位数・基本的上限などの総合的な参照先。 (Semantic Scholar)

  2. Shaowei Lin, “Useful Facts about RLCT”/講義ノート(2012)
     RLCT の定義、性質、簡単な計算則(滑らかな場合の (d/2) など)をコンパクトに整理。 (shaoweilin.github.io)

  3. S. Lin et al., “Hypersurfaces and Their Singularities in Partial Correlation Models” (FoCM, 2014) §3
     RLCT の基本的な計算事実と例。滑らかな二次形式で ((d/2,1)) になる点の確認に便利。 (people.math.ethz.ch)

  4. 講義スライド等(AIM/CMND など)の RLCT まとめ
     極の位置・位数、上限評価((\lambda\le d/2) など)の早見。一次資料の導入として有用。 (shaoweilin.github.io)

LCT(複素)との対応・和積の合成則(Thom–Sebastiani 型)

  1. H. Blum, Log Canonical Thresholds and Valuations(2016, 講義ノート)
     独立変数 (f(\mathbf x)+g(\mathbf y)) に対する (\mathrm{lct}_0=\min{1,\mathrm{lct}(f)+\mathrm{lct}(g)}) の記述。RLCT の和型直感の拠り所。 (math.purdue.edu)

  2. M. Mustaţă, IMPANGA lecture notes on log canonical thresholds(2009)
     加法・積に関する基本性質(和のサブアディティビティ、直積での加法等)や multiplier ideals との関係。 (impan.pl)

  3. L. Maxim – M. Saito – J. Schürmann, “Thom–Sebastiani theorems for filtered D-modules and for multiplier ideals” (2017)
     Thom–Sebastiani の一般形(multiplier ideals 経由)— LCT の和型合成則の基盤。 (people.math.wisc.edu)

「ブロック分割できない」典型例の出典

  1. Whitney の傘(pinch point)
     基本モデル (x^2-y^2z=0) の解説。特異集合が一次元で正規交差でない例。 (ウィキペディア)

  2. 決定因子(determinantal)特異点のサーベイ
     Frühbis-Krüger, “Determinantal Singularities”(2021)— 階数条件による非分離的な相互作用の概観。 (arXiv)

  3. cDV(compound Du Val)3 次元特異点
     Reid「Young Person’s Guide to Canonical Singularities」や Wemyss の cDV サーベイ。二次元 ADE を断面にもつが直積では扱えない。 (School of Mathematics)

  4. ADE の D・E 型(混合項を含む古典例)
     Arnol’d–Guseĭn-Zade–Varchenko『Singularities of Differentiable Maps』— (D_k: x^2+y^{k-1}+yz^2), (E_7: x^2+y^3+yz^3) などの標準形。 (download.uni-mainz.de)

補助:LCT 計算の技法・Newton 多面体・加重吹き上げ

  1. de Fernex–Ein–Mustaţă, “Multiplicities and log canonical threshold” (2002)
     LCT と多重度・ジェット、評価関数の枠組み。 (arXiv)

  2. Kollár(講義ノート)
     加重 blow-up による LCT の評価・例。 (web.math.princeton.edu)

  3. 最近の加重 blow-up を用いた LCT 評価(平面曲線)
     Shi (2024) — Newton 多面体の面上点からの上界・一致条件の拡張。 (arXiv)