「最適輸送理論,曲率次元条件と熱分布」の勉強ノートと非平衡統計力学、拡散モデルへの適用に向けて
「最適輸送理論,曲率次元条件と熱分布」の勉強ノートと非平衡統計力学、拡散モデルへの適用に向て
最適輸送研究会に影響を受け、最適輸送と非平衡統計力学、機械学習との関係に興味を持ちました。
最適輸送理論に関してはC. Villaniの「Optimal transport, old and new」が1000pageくらいあるのでその内容を確認するのは用意ではないです。一方で最適輸送とリッチフローに関しては日本語での充実した研究ドキュメントpdfがあります。
- 最適輸送理論,曲率次元条件と熱分布 約100page
- 最適輸送理論とリッチ曲率 ∼ 物を運ぶと曲率が分かる ∼ 約100page
- 最適輸送理論,Riemann的曲率次元条件と熱分布 77page
-
最適輸送理論梗概
最後にKLダイバージェンスを使う情報幾何とWasserstein距離との正規分布族に対する比較があります。 - 距離コストに対する最適輸送問題について
これらでもそれぞれ100ページ近く有ります。そのなかで曲率次元公式という不思議な形の式が登場し、log Sobolev不等式など幾つかの重要な不等式が成り立つ基礎となっています。他にも自分には見慣れない数学的概念が多く相互の関係を把握するのが難しかったです。そこでここでは「最適輸送理論,曲率次元条件と熱分布」の内容をかいつまんだまとめを記します。
最適輸送理論,曲率次元条件と熱分布の概要(6章まで)
各章の概要です。聞き慣れない概念、定理とそれらの間の関係についてまとめます。基本的に関数は有限のL2ノルム(とおそらくsobolevノルム)を持つものとします。定理の証明、数学的厳密性は「最適輸送理論,曲率次元条件と熱分布」を参照してください。
1章 導入
普通のm次元ブラウン運動
を満たし、これに対する最適輸送費用
が成り立ちます。これはRicc曲率が正かつ次元がN以下という条件と同値であり、これが一般のリーマン多様体を含むどのような枠組みで成り立つか知りたいのが動機らしいです。
2章 Bakry-Emery 理論入門
Bakry-Emeryの曲率次元条件(CD) (BECD)
Focker-Planck方程式
が成り立つのが曲率次元条件(CD)です。これはあくまで条件であってこれが成り立つには以下のWeitzenbock-Bochnerの定理が成り立つ必要が有りますがリーマン多様体では成り立ちます。
Weitzenbock-Bochner公式
が(重み付き)リーマン多様体では成り立ちます(証明は今野宏 著 微分幾何学を参考)。
関数に対する
を使うとBECDは
と簡単に書けます。
また熱拡散方程式
任意の
と同値になります。
特殊で重要な式として任意の
対数sobolev不等式
が導かれます。これはKL divergenceとFisher行列間の関係
とも書かれます。機械学習への応用上重要です。
3章 最適輸送理論の基礎
基本的な記号と概念
-
にとる測度\phi:Y\rightarrow Z の押しだし\mu \in \mathcal{P} \phi_{\sharp}\mu \in \mathcal{P}(Z) - 測度
間のカップリング\mu_0,\mu_1 (2変数関数\Pi:=[\pi \in \mathcal{P}(X\times X)|(p_i)_\sharp \pi=\mu_i]] の片方の引数を固定すると\Pi になる)\mu_i - 測地距離d
-
が絶対連続とは\gamma:[0,T] \rightarrow Y \exists g\forall s,t\in[0,1] d(\gamma_x,\gamma_t)\leq \int g dL^1
Lipschitz連続、定数
最適輸送(OT)
距離
Kantorovich双対性
測度
(
Kantorovich-Rubinsteinの公式
Kantorovichポテンシャル
g\circ p_1 -f \circ p_0 (:=\int gd\mu_1-\int fd\mu_0) \leq c g\circ p_1 -f \circ p_0= c , \pi a.e
のとき(-f,g)はKantorovichポテンシャル
Breinerの定理(最適輸送写像の存在)
最適カップリングのとき
また
このTを最適輸送写像またはBreiner写像といいます。
Tには一意性があります。
Mongeの問題
の形の最適輸送問題
Wasserstein distance
確率分布関数P,Q、あるいは測度
(dはユークリッド距離など点間の距離)これは最適輸送と関連し中心的な意味を持つ距離です。
カップリング
となります。
接着補題
最適輸送の補間
高次元に測地線を持ち上げることができるということらしいです。これによってポテンシャル
その他重要な概念
- 重畳原理
- 双対補間
4章 Otto解析と熱分布
この章では
熱分布が相対エントロピー汎関数の勾配流になる
という重要な、そして字面だけ見ると統計物理学のようなステートメントを証明してます[^1]。
[^1]熱方程式と勾配流(連続方程式, Focker-Planck)を計量の概念を入れて結びつけるのはある意味Dirac方程式に共通します(こちらは時間空間が一次)
Otto解析
上記のために形式的に以下のような接空間
連続方程式(Focker-Planck方程式)
弱形式では
L^2 Wasserstern距離に関するBenamou-Breiner公式 (定理4.1)
条件(V)(定義4.2)
測度距離空間
Ent_m(\mu)
相対エントロピー測度m,
が定義されます。その測度に対する変換は
となります。エントロピーを意味あるものにするために距離の2乗に関する積分が有限であること
エントロピーの勾配流方程式(Theorem 4.5)
の解が
の解と一致することが証明されています
Fisher情報量
\Rightarrow Ent_m の(K,N)凸性
Otto解析によるBakry-EmeryのCD Otto解析,Bakry-Emeryの曲率次元条件が成り立つとすると
W_2 収縮性
Otto解析によるここで
これは
K=0のとき
と単純化されます。
5章 最適輸送理論による曲率次元条件(CD)
曲率次元条件(CD)はN大、K小の方向が条件として弱い
CD(K\infty) )
Strum/Lott-Villaniの曲率次元条件 (entropy powerという汎関数
を定義し、その曲率次元条件が以下になります。
CD^e(K,N) )
エントロピー曲率次元条件(以前出てきた微分不等式は
であることがわかります。
ここでまた別のエントロピー(Renyi(-Tsallis)エントロピー)
(
N<\infty )
Strum/Lott-Villaniの曲率次元条件(ここで
CD^*(K,N) )
reduced CD(測度収縮性(MCP)
のとき
曲率次元条件間の関係
CD(K,N) \Rightarrow CD^*(K,N) \Rightarrow MCP(K,N) -
のときK\geq 0 特にCD^*(K,N) \Rightarrow CD((N-1)K/N,N) CD(0,N)\Rightarrow CD^*(0,N) -
が本質的非分岐(X,d,m) \Rightarrow (CD^*(K,N) \Leftrightarrow CD^e(K,N)) - 強
強CD^*(K,N) \Leftrightarrow CD^e(K,N))
L^2 -Wasserstein 空間上の勾配流
6章 疑問「熱分布に対する
-
上で相対エントロピー(\mathscr{P_2}(X),W_2) の勾配流をどう定式化するのかEnt_m - 勾配流はCDe(K,N)条件化で
収縮性をみたすかW_2 - その勾配流は熱方程式の解と同一なのか?(以下のJKO schemeを使った導出が基礎にある)
という疑問に分かれます。今まで挙げた曲率次元関係間に幾つかの関係が成り立ちます。
JKO scheme
Fokker-Planck方程式
の解を(Wasserstein)距離dに対して
エネルギー消散等式(EDE)
曲線
発展変分不等式(K-EVI)
を満たす
諸関係
- EDEの解、K-EVIの解はUの勾配流
- Uの勾配流で
K-EVIの解Hess U\geq K\Rightarrow - K-EVI ⇒ 収縮性
- EVI勾配 = EDE勾配 で一意
-
K-EVI on (M,d,m)CD(K,\infty) \Leftrightarrow
7章 Riemann 的曲率次元条件と熱分布
ディリクレ形式(エネルギー汎関数)
との関係が述べられています。
8章 応用と関連する話題
曲率次元条件が導く色々な不等式を紹介するにとどめます。以下の展望と関係します。
HWI不等式
log Sobolev不等式
参考
Talagrand不等式
大域ポアンカレ不等式
N-log Sobolev不等式
N-Talagrand不等式
9章 RCD空間上の解析とに関する幾つかの話題
気になったトピックのみ挙げます
- リッチフローへの応用
- 自己改良
-
収縮の拡張W_2 - Wエントロピー(Perelmanがポアンカレ予想解決で提唱)
- 剛性
非平衡統計力学、機械学習、拡散モデルへの展望
非平衡統計力学においては(相対)エントロピー生成
数値計算、実験の値から実効的な次元Nやリッチ曲率Kの上限が求まるかもしれません。拡散モデルに対しても同様のことが言えるはずです。
一般の機械学習の場合は重みパラメーターxはLangevin方程式
に従って学習されるとモデル化されます。学習データに起因するノイズ部分
下記の論文のようにより条件を絞ったTanagrand不等式やlog Sobolev不等式の成立を考えるだけでも意義深いです(Tanagrand不等式が測度限界に対応しているように見えます)。
非平衡統計力学、機械学習と最適輸送の関係
以下に関連論文を挙げます
-
Geometrical aspects of entropy production in stochastic thermodynamics based on Wasserstein distance
-
Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance
KLダイバージェンスに基づいて作られた拡散モデルでもWasserstein距離を最小化できるということを導出しています。log Sobolev不等式やTalagrand不等式と関係していそうですが、論文を見るとどうも自力で導出しているようです。
W-GANでも曲率次元関係相当のことが考えられるはずです。
その他の参考文献
関連研究
-
Controlling Posterior Collapse by an Inverse Lipschitz Constraint on the Decoder Network
VAEの改良版で対数ソボレフ不等式について言及が有ります。
既存の情報幾何(Fisher幾何)に対するWasserstein幾何に関連するものとして
- Wasserstein information matrix
- Information Geometry of Wasserstein Statistics on Shapes and Affine Deformations
- Wasserstein 統計学に向けて 分布の形と変形(解説スライド)
幾何学的話題
- https://ymatz.sakura.ne.jp/journal/wp-content/uploads/2021/01/20180225-mathcafe-slide.pdf Rauchiの比較定理に関して
- リッチフローと幾何化予想
- Ricci Flow and the Poincare Conjecture
確率不等式
-
Hoeffdingの不等式
-
Bernsteinの不等式
-
Rademacher複雑さとDudley積分
-
VC次元
-
局所Rademacher複雑 さ
-
高次元推定問題におけるLasso
-
N-Talagrand不等式
-
Minimax最適性
など、本稿とかぶっているのはありません
Talagrandのcenentration inequalityは非常に汎用性の高い不等式である.実際,局所Rademacher複雑さを用いたfast learning rateの導出に用いられている.
ユークリッド空間上の正規分布に基づくこれらの不等式の改良について考える.とくに,インプットする分散がある意味で大きい場合に最適な形で不等式が改良されることを報告する
defict
deficit の非自明な下界を評価する
分散が小さい場合の改良
分散が大きい場合の改良
\nabla^2 \log f \ge −\frac{1}{\beta}I_n \Rightarrow cov(\mu) \ge \beta I_n \nabla^2 \log f \le −\frac{1}{\beta}I_n \Rightarrow cov(\mu) \le \beta I_n Delta \log f \ge −\frac{n}{\beta}I_n \Rightarrow Tr[cov(\mu)] \ge n\beta
Discussion