「最適輸送理論,曲率次元条件と熱分布」の勉強ノートと非平衡統計力学、拡散モデルへの適用に向て
最適輸送研究会 に影響を受け、最適輸送と非平衡統計力学、機械学習との関係に興味を持ちました。
最適輸送理論に関してはC. Villaniの「Optimal transport, old and new 」が1000pageくらいあるのでその内容を確認するのは用意ではないです。一方で最適輸送とリッチフローに関しては日本語での充実した研究ドキュメントpdfがあります。
これらでもそれぞれ100ページ近く有ります。そのなかで曲率次元公式という不思議な形の式が登場し、log Sobolev不等式など幾つかの重要な不等式が成り立つ基礎となっています。他にも自分には見慣れない数学的概念が多く相互の関係を把握するのが難しかったです。そこでここでは「最適輸送理論,曲率次元条件と熱分布」の内容をかいつまんだまとめを記します。
最適輸送理論,曲率次元条件と熱分布の概要(6章まで)
各章の概要です。聞き慣れない概念、定理とそれらの間の関係についてまとめます。基本的に関数は有限のL2ノルム(とおそらくsobolevノルム)を持つものとします。定理の証明、数学的厳密性は「最適輸送理論,曲率次元条件と熱分布」を参照してください。
1章 導入
普通のm次元ブラウン運動B 0 , B 1 B_0,B_1 B 0 , B 1 間の関係として結合法という関係
E [ ∣ B 0 ( 2 α t ) − B 1 ( β t ) ∣ 2 ] ≤ ∣ x 1 − x 2 ∣ 2 + 2 m ( β t − α t ) 2 ] E[|B_0(2\alpha t) - B_1(\beta t)|^2]\leq |x_1-x_2|^2+2m(\sqrt{\beta t }-\sqrt{\alpha t})^2] E [ ∣ B 0 ( 2 α t ) − B 1 ( βt ) ∣ 2 ] ≤ ∣ x 1 − x 2 ∣ 2 + 2 m ( βt − α t ) 2 ]
を満たし、これに対する最適輸送費用T d 2 T_{d^2} T d 2 は初期値をデルタ関数δ ( x i ) \delta(x_i) δ ( x i ) とする分布関数ν i \nu_i ν i を用いて
T d 2 ( ν s , ν t ) ≤ d ( x 0 , x 1 ) 2 + 2 N ( t − s ) T_{d^2}(\nu_s,\nu_t)\leq d(x_0,x_1)^2+2N(\sqrt{t}-\sqrt{s}) T d 2 ( ν s , ν t ) ≤ d ( x 0 , x 1 ) 2 + 2 N ( t − s )
が成り立ちます。これはRicc曲率が正かつ次元がN以下 という条件と同値であり、これが一般のリーマン多様体を含むどのような枠組みで成り立つか知りたいのが動機らしいです。
2章 Bakry-Emery 理論入門
Bakry-Emeryの曲率次元条件(CD) (BECD)
Focker-Planck方程式f ˙ = L f : = Δ f − < ∇ V , ∇ f > \dot{f}=Lf:=\Delta f-<\nabla V,\nabla f> f ˙ = L f := Δ f − < ∇ V , ∇ f > と対応するLangevin方程式に対して
1 2 L ∣ ∇ f ∣ 2 − < ∇ f , ∇ L f > ≥ K ∣ ∇ f ∣ 2 + 1 N ( L f ) 2 \frac{1}{2}L|\nabla f|^2-<\nabla f,\nabla Lf>\geq K|\nabla f|^2+\frac{1}{N}(Lf)^2 2 1 L ∣∇ f ∣ 2 − < ∇ f , ∇ L f >≥ K ∣∇ f ∣ 2 + N 1 ( L f ) 2
が成り立つのが曲率次元条件(CD)です。これはあくまで条件であってこれが成り立つには以下のWeitzenbock-Bochnerの定理が成り立つ必要が有りますがリーマン多様体では成り立ちます。
∀ f ∈ C ∞ ( M ) \forall f\in C^\infty(M) ∀ f ∈ C ∞ ( M )
1 2 L ∣ ∇ ∣ 2 − < ∇ f , ∇ L f > = ∣ ∣ H e s s ( f ) ∣ ∣ 2 + R i c V ∞ ( ∇ f , ∇ f ) \frac{1}{2}L|\nabla|^2-<\nabla f,\nabla Lf>=||Hess(f)||^2+Ric_V^\infty(\nabla f,\nabla f) 2 1 L ∣∇ ∣ 2 − < ∇ f , ∇ L f >= ∣∣ Hess ( f ) ∣ ∣ 2 + R i c V ∞ ( ∇ f , ∇ f )
R i c V N : = R i c + H e s s V − 1 N − m ∇ V ⋅ ∇ V Ric_V^N:=Ric+HessV-\frac{1}{N-m}\nabla V \cdot\nabla V R i c V N := R i c + Hess V − N − m 1 ∇ V ⋅ ∇ V
が(重み付き)リーマン多様体では成り立ちます(証明は今野宏 著 微分幾何学 を参考)。
関数に対するG a m m a Gamma G amma 計算
Γ ( f 1 , f 2 ) : = 1 2 ( L ( f 1 f 2 ) − f 1 L ( f 2 ) − f 2 L ( f 1 ) ) \Gamma(f_1,f_2):=\frac{1}{2}(L(f_1f_2)-f_1L(f_2)-f_2L(f_1)) Γ ( f 1 , f 2 ) := 2 1 ( L ( f 1 f 2 ) − f 1 L ( f 2 ) − f 2 L ( f 1 ))
Γ 2 ( f 1 , f 2 ) : = 1 2 ( L Γ ( f 1 , f 2 ) − Γ ( f 1 , L ( f 2 ) ) − Γ ( f 2 L ( f 1 ) ) ) \Gamma_2(f_1,f_2):=\frac{1}{2}(L\Gamma(f_1,f_2)-\Gamma(f_1,L(f_2))-\Gamma(f_2L(f_1))) Γ 2 ( f 1 , f 2 ) := 2 1 ( L Γ ( f 1 , f 2 ) − Γ ( f 1 , L ( f 2 )) − Γ ( f 2 L ( f 1 )))
を使うとBECDは
Γ ( f , f ) ≥ K Γ ( f , f ) + 1 N ( L ( f ) 2 ) \Gamma(f,f)\geq K\Gamma(f,f)+\frac{1}{N}(L(f)^2) Γ ( f , f ) ≥ K Γ ( f , f ) + N 1 ( L ( f ) 2 )
と簡単に書けます。
また熱拡散方程式u ( x , t ) ˙ = L u ( x , t ) , u ( x , 0 ) = f ( x ) \dot{u(x,t)}=Lu(x,t) , u(x,0)=f(x) u ( x , t ) ˙ = Lu ( x , t ) , u ( x , 0 ) = f ( x ) とその作用素の半群P t = e t L P_t=e^{tL} P t = e t L を用いるとBECDは
任意のf , t > 0 f, t>0 f , t > 0 で∣ ∇ P t f ∣ 2 + 1 − e − 2 K t N K L P t f ∣ 2 ≤ e − 2 K t P t ( ∣ ∇ f ∣ 2 ) |\nabla P_t f|^2+\frac{1-e^{-2Kt}}{NK}LP_tf|^2\leq e^{-2Kt}P_t(|\nabla f|^2) ∣∇ P t f ∣ 2 + N K 1 − e − 2 K t L P t f ∣ 2 ≤ e − 2 K t P t ( ∣∇ f ∣ 2 )
と同値になります。
特殊で重要な式として任意のf ∈ C ∞ ( M ) f\in C^\infty(M) f ∈ C ∞ ( M ) ,測度mに対して
∫ f log f d m ≤ 1 2 K ∫ ∣ ∇ f ∣ 2 f d m \int f\log f dm\leq \frac{1}{2K}\int \frac{|\nabla f|^2}{f}dm ∫ f log fd m ≤ 2 K 1 ∫ f ∣∇ f ∣ 2 d m
が導かれます。これはKL divergenceとFisher行列間の関係
D ( p / / q ) ≤ 1 2 K I ( p , q ) D(p//q)\leq \frac{1}{2K}I(p,q) D ( p // q ) ≤ 2 K 1 I ( p , q )
とも書かれます。機械学習への応用上重要です。
3章 最適輸送理論の基礎
基本的な記号と概念
ϕ : Y → Z \phi:Y\rightarrow Z ϕ : Y → Z にとる測度μ ∈ P \mu \in \mathcal{P} μ ∈ P の押しだし ϕ ♯ μ ∈ P ( Z ) \phi_{\sharp}\mu \in \mathcal{P}(Z) ϕ ♯ μ ∈ P ( Z )
測度μ 0 , μ 1 \mu_0,\mu_1 μ 0 , μ 1 間のカップリングΠ : = [ π ∈ P ( X × X ) ∣ ( p i ) ♯ π = μ i ] ] \Pi:=[\pi \in \mathcal{P}(X\times X)|(p_i)_\sharp \pi=\mu_i]] Π := [ π ∈ P ( X × X ) ∣ ( p i ) ♯ π = μ i ]] (2変数関数Π \Pi Π の片方の引数を固定するとμ i \mu_i μ i になる)
測地距離d
γ : [ 0 , T ] → Y \gamma:[0,T] \rightarrow Y γ : [ 0 , T ] → Y が絶対連続とは∃ g ∀ s , t ∈ [ 0 , 1 ] d ( γ x , γ t ) ≤ ∫ g d L 1 \exists g\forall s,t\in[0,1] d(\gamma_x,\gamma_t)\leq \int g dL^1 ∃ g ∀ s , t ∈ [ 0 , 1 ] d ( γ x , γ t ) ≤ ∫ g d L 1
L i p ( f ) : = s u b y ≠ x f ( y ) − f ( y ) d ( y , x ) Lip(f):=sub_{y\neq x}\frac{f(y)-f(y)}{d(y,x)} L i p ( f ) := s u b y = x d ( y , x ) f ( y ) − f ( y )
最適輸送(OT)
距離d , c = d 2 d,c=d^2 d , c = d 2 測度μ 0 μ 1 \mu_0\mu_1 μ 0 μ 1 に対する最適輸送写像T c ( μ 0 μ 1 ) T_c(\mu_0\mu_1) T c ( μ 0 μ 1 ) は
T c ( μ 0 μ 1 ) : = inf π ∈ Π ∫ c ( x , y ) d π ( x , y ) T_c(\mu_0\mu_1):=\inf_{\pi\in\Pi}\int c(x,y)d\pi(x,y) T c ( μ 0 μ 1 ) := inf π ∈ Π ∫ c ( x , y ) d π ( x , y )
Kantorovich双対性
測度μ 0 μ 1 ∈ P \mu_0\mu_1\in \mathcal{P} μ 0 μ 1 ∈ P に対する
T c ( μ 0 , μ 1 ) = sup [ ∫ g d μ 1 − ∫ f d μ 0 ] = sup [ ∫ f c d μ 1 − ∫ f d μ 0 ] T_c(\mu_0,\mu_1)=\sup[\int gd\mu_1-\int fd\mu_0] =\sup[\int f^cd\mu_1-\int fd\mu_0] T c ( μ 0 , μ 1 ) = sup [ ∫ g d μ 1 − ∫ fd μ 0 ] = sup [ ∫ f c d μ 1 − ∫ fd μ 0 ]
(f c ( y ) : = inf x [ f ( x ) + c ( x , y ) ] f^c(y):=\inf_x [f(x)+c(x,y)] f c ( y ) := inf x [ f ( x ) + c ( x , y )] )となること(ここでは(-f,g)の存在までは言っていない)
Kantorovich-Rubinsteinの公式
T d ( μ 0 , μ 1 ) = sup [ ∫ f d μ 1 − ∫ f d μ 0 ∣ f ∈ L i p b ( X ) ] T_d(\mu_0,\mu_1)=\sup[\int fd\mu_1-\int fd\mu_0|f\in Lip_b(X)] T d ( μ 0 , μ 1 ) = sup [ ∫ fd μ 1 − ∫ fd μ 0 ∣ f ∈ L i p b ( X )]
Kantorovichポテンシャル
g ∘ p 1 − f ∘ p 0 ( : = ∫ g d μ 1 − ∫ f d μ 0 ) ≤ c g\circ p_1 -f \circ p_0 (:=\int gd\mu_1-\int fd\mu_0) \leq c g ∘ p 1 − f ∘ p 0 ( := ∫ g d μ 1 − ∫ fd μ 0 ) ≤ c
g ∘ p 1 − f ∘ p 0 = c , π a . e g\circ p_1 -f \circ p_0= c , \pi a.e g ∘ p 1 − f ∘ p 0 = c , πa . e
のとき(-f,g)はKantorovichポテンシャル
Breinerの定理(最適輸送写像の存在)
最適カップリングのとき∃ T : X → X , π = ( i d × T ) \exist T:X\rightarrow X,\pi=(id \times T) ∃ T : X → X , π = ( i d × T ) ,
また∃ ϕ s . t . T = ∇ ϕ \exist\phi s.t. T=\nabla \phi ∃ ϕ s . t . T = ∇ ϕ
このTを最適輸送写像またはBreiner写像といいます。
Tには一意性があります。
Mongeの問題
( i d × T ) μ ⊆ Π ( μ 0 , μ 1 ) (id \times T)_\mu \subseteq \Pi(\mu_0,\mu_1) ( i d × T ) μ ⊆ Π ( μ 0 , μ 1 )
の形の最適輸送問題
確率分布関数P,Q、あるいは測度μ 0 , μ 1 \mu_0,\mu_1 μ 0 , μ 1 間の距離として
W p ( P , Q ) p : = inf π ∈ Π ( μ , ν ) [ ∣ d ∣ L p ( x ) ] = inf π ∈ Π ( μ , ν ) [ ∫ ∣ d ( x , y ) ∣ p d π ( x , y ) ] W_p(P,Q)^p:=\inf_{\pi\in\Pi(\mu,\nu)}[|d|_{L^p(x)}]=\inf_{\pi\in\Pi(\mu,\nu)}[\int |d(x,y)|^p d\pi(x,y)] W p ( P , Q ) p := inf π ∈ Π ( μ , ν ) [ ∣ d ∣ L p ( x ) ] = inf π ∈ Π ( μ , ν ) [ ∫ ∣ d ( x , y ) ∣ p d π ( x , y )]
(dはユークリッド距離など点間の距離)これは最適輸送と関連し中心的な意味を持つ距離です。
カップリングΠ ( x , y ) \Pi(x,y) Π ( x , y ) が分解でき
μ , ν ∈ P ( X ) , π Π ( m u , ν ) , ∃ { ν x } ∈ P ( X ) ∀ A ⊂ X x ↦ ν x ( A ) \mu,\nu\in \mathcal{P}(X), \pi \Pi(mu,\nu),\exist \{\nu_x\}\in \mathcal{P}(X)\forall A\subset X x\mapsto \nu_x(A) μ , ν ∈ P ( X ) , π Π ( m u , ν ) , ∃ { ν x } ∈ P ( X ) ∀ A ⊂ X x ↦ ν x ( A ) は可測 に対して
∀ h ∫ h d π = ∫ X ∫ X h ( y ) d ν x d ν y \forall h \int hd\pi=\int_X\int_Xh(y) d\nu_x d\nu_y ∀ h ∫ h d π = ∫ X ∫ X h ( y ) d ν x d ν y
となります。
接着補題
最適輸送の補間
高次元に測地線を持ち上げることができるということらしいです。これによってポテンシャルϕ \phi ϕ がハミルトン・ヤコビ方程式を満たすらしいです。
その他重要な概念
4章 Otto解析と熱分布
この章では
熱分布が相対エントロピー汎関数の勾配流になる
p ˙ t = ∇ E n t ( p t ) \dot{p}_t=\nabla Ent(p_t) p ˙ t = ∇ E n t ( p t )
という重要な、そして字面だけ見ると統計物理学のようなステートメントを証明してます[^1]。
[^1]熱方程式と勾配流(連続方程式, Focker-Planck)を計量の概念を入れて結びつけるのはある意味Dirac方程式 に共通します(こちらは時間空間が一次)
Otto解析
上記のために形式的に以下のような接空間T T T , 計量g、測度mをもつ多様体を考えます。
T μ P : = { ∇ ϕ ∣ ∫ ∣ ϕ ∣ 2 d μ < ∞ } T_\mu\mathcal{P}:=\{ \nabla \phi | \int|\phi|^2d\mu<\infty\} T μ P := { ∇ ϕ ∣ ∫ ∣ ϕ ∣ 2 d μ < ∞ }
g ( Z , Z ′ ) : = ∫ < Z , Z ′ > d μ g(Z,Z'):=\int<Z,Z'>d\mu g ( Z , Z ′ ) := ∫ < Z , Z ′ > d μ
連続方程式(Focker-Planck方程式)
∂ t p t = − ∇ m ⋅ ( p t ∇ ϕ t ) \partial_tp_t=-\nabla_m\cdot (p_t \nabla \phi_t) ∂ t p t = − ∇ m ⋅ ( p t ∇ ϕ t )
弱形式では∀ f ∈ C 0 ∞ ( R m ) \forall f\in C^\infty_0(R^m) ∀ f ∈ C 0 ∞ ( R m ) に対して
d d t ∫ f d μ t = ∫ < ∇ f , ∇ ϕ t > d μ t \frac{d}{dt}\int fd\mu_t=\int<\nabla f,\nabla \phi_t>d\mu_t d t d ∫ fd μ t = ∫ < ∇ f , ∇ ϕ t > d μ t
W 2 ( μ 1 , μ 2 ) 2 = inf [ ∫ d t ∫ ∣ ∇ ϕ t ∣ 2 d μ t ] W_2(\mu_1,\mu_2)^2=\inf[\int dt \int |\nabla \phi_t|^2 d\mu_t] W 2 ( μ 1 , μ 2 ) 2 = inf [ ∫ d t ∫ ∣∇ ϕ t ∣ 2 d μ t ]
条件(V)(定義4.2)
測度距離空間( X , d , m ) (X,d,m) ( X , d , m ) に対して
∫ exp ( − c d ( x 0 , x 1 ) ) m d x < ∞ \int \exp(-cd(x_0,x_1))mdx<\infty ∫ exp ( − c d ( x 0 , x 1 )) m d x < ∞
相対エントロピーE n t m ( μ ) Ent_m(\mu) E n t m ( μ )
測度m,μ \mu μ に対して相対エントロピー
E n t m ( μ ) = ∫ ρ log ( ρ ) d m Ent_m(\mu)=\int \rho\log(\rho)dm E n t m ( μ ) = ∫ ρ log ( ρ ) d m
( μ = ρ m ) (\mu=\rho m) ( μ = ρ m )
が定義されます。その測度に対する変換は
となります。エントロピーを意味あるものにするために距離の2乗に関する積分が有限であること∫ e x p ( − c d ( x 0 , x ) 2 ) m ( d x ) < ∞ \int exp(-c d(x_0,x)^2)m(dx)<\infty ∫ e x p ( − c d ( x 0 , x ) 2 ) m ( d x ) < ∞ を要求しています(Def 4.2)。
エントロピーの勾配流方程式(Theorem 4.5)
v t ˙ = ∇ E n t m ( v t ) \dot{v_t}=\nabla Ent_m(v_t) v t ˙ = ∇ E n t m ( v t )
の解がv 0 v_0 v 0 を初期値とする熱方程式
v t ˙ = L v t = Δ p − < ∇ v t , ∇ v t > \dot{v_t}=\mathcal{L}v_t=\Delta p-<\nabla v_t,\nabla v_t> v t ˙ = L v t = Δ p − < ∇ v t , ∇ v t >
の解と一致することが証明されています
Fisher情報量
F ( p , q ) : = ∫ ( ∇ E n t m , ∇ E n t m ) = ∫ X ∣ ρ ∣ 2 ρ d m ( = 4 ∫ X ∣ ∇ ρ ∣ 2 d m ) F(p,q):=\int (\nabla Ent_m,\nabla Ent_m)=\int_X \frac{|\rho|^2}{\rho}dm(=4\int_X|\nabla\sqrt{\rho}|^2dm) F ( p , q ) := ∫ ( ∇ E n t m , ∇ E n t m ) = ∫ X ρ ∣ ρ ∣ 2 d m ( = 4 ∫ X ∣∇ ρ ∣ 2 d m )
Otto解析によるBakry-EmeryのCD ⇒ \Rightarrow ⇒ E n t m Ent_m E n t m の(K,N)凸性
Otto解析,Bakry-Emeryの曲率次元条件が成り立つとすると
H e s s ( E n t m ) − 1 N ( ∇ E n t m ) 2 ≥ K Hess(Ent_m)-\frac{1}{N}(\nabla Ent_m)^2\geq K Hess ( E n t m ) − N 1 ( ∇ E n t m ) 2 ≥ K
Otto解析によるW 2 W_2 W 2 収縮性
s 2 ( W 2 ( μ s , ν t ) 2 ) ≤ e − K ( s + t ) s ( W 2 ( μ 0 , μ 0 ) 2 ) + N 2 1 − e − K ( s + t ) K ( s + t ) ( t − s ) 2 s^2(\frac{W_2(\mu_s,\nu_t)}{2})\leq e^{-K(s+t)}s(\frac{W_2(\mu_0,\mu_0)}{2})+\frac{N}{2}\frac{1-e^{-K(s+t)}}{K(s+t)}(\sqrt{t}-\sqrt{s})^2 s 2 ( 2 W 2 ( μ s , ν t ) ) ≤ e − K ( s + t ) s ( 2 W 2 ( μ 0 , μ 0 ) ) + 2 N K ( s + t ) 1 − e − K ( s + t ) ( t − s ) 2
ここでs ( x ) = sin ( K / N x ) ( K / N ) s(x)=\frac{\sin(\sqrt{K/N}x)}{(K/N)} s ( x ) = ( K / N ) s i n ( K / N x )
これはN = ∞ N=\infty N = ∞ の時
W 2 ( μ t , ν t ) ≤ e − 2 K t W 2 ( μ 0 , ν 0 ) 2 W_2(\mu_t,\nu_t)\leq e^{-2Kt}W_2(\mu_0,\nu_0)^2 W 2 ( μ t , ν t ) ≤ e − 2 K t W 2 ( μ 0 , ν 0 ) 2
K=0のとき
W 2 ( μ t , ν t ) ≤ W 2 ( μ 0 , ν 0 ) 2 + 2 N ( t − s ) 2 W_2(\mu_t,\nu_t)\leq W_2(\mu_0,\nu_0)^2+2N(\sqrt{t}-\sqrt{s})^2 W 2 ( μ t , ν t ) ≤ W 2 ( μ 0 , ν 0 ) 2 + 2 N ( t − s ) 2
と単純化されます。
5章 最適輸送理論による曲率次元条件(CD)
曲率次元条件(CD)はN大、K小の方向が条件として弱い
Strum/Lott-Villaniの曲率次元条件 (C D ( K ∞ ) CD(K\infty) C D ( K ∞ ) )
E n t m ( μ t ) ≤ ( 1 − t ) E n t m ( μ t ) + t E n t m ( μ 1 ) − K 2 Ent_m(\mu_t)\leq (1-t)Ent_m(\mu_t)+ tEnt_m(\mu_1)-\frac{K}{2} E n t m ( μ t ) ≤ ( 1 − t ) E n t m ( μ t ) + tE n t m ( μ 1 ) − 2 K
μ 0 , μ 1 \mu_0,\mu_1 μ 0 , μ 1 間の任意のW 2 W_2 W 2 測地線でになりたつ場合は強C D ( K ∞ ) CD(K\infty) C D ( K ∞ ) といいます
entropy powerという汎関数
U N : = exp ( 1 N E n t m ) U_N:=\exp(\frac{1}{N}Ent_m) U N := exp ( N 1 E n t m )
を定義し、その曲率次元条件が以下になります。
エントロピー曲率次元条件(C D e ( K , N ) CD^e(K,N) C D e ( K , N ) )
U_N(\mu_t)\geq \frac{s(1-t)W_2(\mu_0,\mu_1)}{sW_2(\mu_0,\mu_1)}U_N(\mu_0)+\frac{s(tW_2(\mu_0,\mu_1))}{sW_2(\mu_0,\mu_1)}U_N(\mu_1)
以前出てきた微分不等式はU_N の凹性と同値
Hess(Ent_m)-\frac{1}{N}(\nabla Ent_m)^2 \Leftrightarrow Hess(U_N)\leq -\frac{K}{N}U_N
であることがわかります。
ここでまた別のエントロピー(Renyi(-Tsallis)エントロピー)
S_N(\mu):=\int \rho^{1-\frac{1}{N}}dm
(\mu=\rho+m )を定義すると
Strum/Lott-Villaniの曲率次元条件(N<\infty )
S_{N'}\leq \int_{X\times X} \Big( (1-t)\frac{s'((1-t)d(x_0,x_1))}{(1-t)s'(d(x_0,x_1))}^{1-\frac{1}{N'}}\rho_0^{-\frac{1}{N'}}(x_0)+t\frac{s'(td(x_0,x_1))}{s'(d(x_0,x_1))}^{1-\frac{1}{N'}}\rho_1^{-\frac{1}{N'}}(x_1) \Big)d\pi(x,y)
ここでs'(x)=\frac{\sin(\sqrt{K/N'}x)}{(K/N')}
reduced CD(CD^*(K,N) )
S_{N'}\leq \int_{X\times X} \Big( \frac{s'((1-t)d(x_0,x_1))}{s'(d(x_0,x_1))}^{1-\frac{1}{N'}}\rho_0^{-\frac{1}{N'}}(x_0)+\frac{s'(td(x_0,x_1))}{ts'(d(x_0,x_1))}^{1-\frac{1}{N'}}\rho_1^{-\frac{1}{N'}}(x_1) \Big)d\pi(x,y)
測度収縮性(MCP)
\forall x\in X ,可測な A\subset X,m(A) , A\subset B_{\sqrt{\frac{N-1}{K\pi}}}(x) に対して\exist \delta_x,\Xi (カップリング) s.t
m\leq(e_t)_\sharp\big( t\frac{s(td(\gamma_0,\gamma_1))}{s(d(\gamma_0,\gamma_1))}^{N-1}m(A)\Xi(d\gamma)
のとき(X,d,m) はMCPを満たす
曲率次元条件間の関係
CD(K,N) \Rightarrow CD^*(K,N) \Rightarrow MCP(K,N)
K\geq 0 のときCD^*(K,N) \Rightarrow CD((N-1)K/N,N) 特にCD(0,N)\Rightarrow CD^*(0,N)
(X,d,m) が本質的非分岐 \Rightarrow (CD^*(K,N) \Leftrightarrow CD^e(K,N))
強CD^*(K,N) \Leftrightarrow 強CD^e(K,N))
6章 L^2 -Wasserstein 空間上の勾配流
疑問「熱分布に対するW_2 収縮性」を最適輸送の考えから導出できるか、より詳しくは
(\mathscr{P_2}(X),W_2) 上で相対エントロピーEnt_m の勾配流をどう定式化するのか
勾配流はCDe(K,N)条件化でW_2 収縮性をみたすか
その勾配流は熱方程式の解と同一なのか?(以下のJKO schemeを使った導出が基礎にある)
という疑問に分かれます。今まで挙げた曲率次元関係間に幾つかの関係が成り立ちます。
Fokker-Planck方程式
\dot{p}=\nabla\cdot(\nabla U(x)p)+\beta^{-1}\Delta p
の解を(Wasserstein)距離dに対してd(p^{(k)},p)^2 を最小化するようなものとみなし反復法でその解を求めようとする方法
エネルギー消散等式(EDE)
曲線\{\eta_t\} に対して
-\frac{d}{dt}U(\eta_t)=\frac{1}{2}|\dot{\eta}|(t)^2+\frac{1}{2}|\nabla_U|(\eta_t)^2
|\nabla_U|(y):=\bar{\lim}_{z\rightarrow y}\frac{[U(y)-U(z)]_+}{d_Y(y,z)}
発展変分不等式(K-EVI)
\frac{1}{2}\frac{d}{dt}d_(\eta_t,z)^2+\frac{K}{2}d_Y(\eta_t,z)\leq U(z)-U(\eta_t)
を満たす\{\eta_t\} が初期条件\eta_0 とするUのK-EVIの勾配流と呼ばれる
諸関係
EDEの解、K-EVIの解はUの勾配流
Uの勾配流でHess U\geq K\Rightarrow K-EVIの解
K-EVI ⇒ 収縮性
EVI勾配 = EDE勾配 で一意
CD(K,\infty) \Leftrightarrow K-EVI on (M,d,m)
7章 Riemann 的曲率次元条件と熱分布
ディリクレ形式 (エネルギー汎関数)
E(u,v)=\sum_i \int \frac{\partial u}{\partial x_i}\frac{\partial v}{\partial x_i}
との関係が述べられています。
8章 応用と関連する話題
曲率次元条件が導く色々な不等式を紹介するにとどめます。以下の展望と関係します。
HWI不等式
CD(K,\infty) で
Ent_m(\mu_0)\leq Ent_m(\mu_1)+W_2(\mu_0,\mu_1)\sqrt{I_m(\mu_0)}-\frac{K}{2}W_2(\mu_0,\mu_1)^2
log Sobolev不等式
Ent_m\leq\frac{1}{K}I_m(\mu)
参考
https://djalil.chafai.net/blog/2023/01/12/log-sobolev-and-bakry-emery/
https://terrytao.wordpress.com/2013/02/05/some-notes-on-bakry-emery-theory/
Talagrand不等式
W_2(\mu_0,\mu_1)^2\leq \frac{2}{K}Ent_m(\mu)
大域ポアンカレ不等式
\int_X|f-\frac{1}{m(X)}\int_X fdm|^2 \leq \frac{1}{K}\int|\nabla f|^2_*dm
N-log Sobolev不等式
KN[\exp(\frac{2}{N}Ent_m(\mu))-1]\leq I_m(\mu)
N-Talagrand不等式
Ent_m(\mu)\leq N\log\cos(\sqrt{\frac{K}{N}}W_2(\mu,m))
9章 RCD空間上の解析とに関する幾つかの話題
気になったトピックのみ挙げます
リッチフローへの応用
自己改良
W_2 収縮の拡張
Wエントロピー (Perelmanがポアンカレ予想解決で提唱)
剛性
非平衡統計力学、機械学習、拡散モデルへの展望
非平衡統計力学においては(相対)エントロピー生成\sigma が任意の関数に対して熱力学的不確定性(TUR)の不等式を満たします。TURはCramer-Raoの不等式の経路版と言えCauchy–Schwarzの不等式から導出されるので上記の不等式とは異なります。上記の不等式をそのまま非平衡統計力学に適用すると異なる関係が出てくると言えるでしょうか。それはGeometrical aspects of entropy production in stochastic thermodynamics based on Wasserstein distance ではL2-Wasserstein距離の満たす三角不等式から熱力学的速度限界がTURとは独立に導出されています。Taragrand不等式に対応しているようにも見えます。TURはエントロピー生成の微分、熱力学速度限界はエントロピー生成そのものの制約です。曲率次元公式はこれより厳しい関係になっているように見えます。
数値計算、実験の値から実効的な次元Nやリッチ曲率Kの上限が求まるかもしれません。拡散モデルに対しても同様のことが言えるはずです。
一般の機械学習の場合は重みパラメーターxはLangevin方程式
\dot{x}=-\nabla_x U(x)+f(x)-\gamma x+\sqrt{\beta_t}dW_t
に従って学習されるとモデル化されます。学習データに起因するノイズ部分\beta_t をうまく取り扱う必要がありそうです。
下記の論文のようにより条件を絞ったTanagrand不等式やlog Sobolev不等式の成立を考えるだけでも意義深いです(Tanagrand不等式が測度限界に対応しているように見えます)。
https://twitter.com/ito_sosuke/status/1505514289117134849
非平衡統計力学、機械学習と最適輸送の関係
以下に関連論文を挙げます
W-GANでも曲率次元関係相当のことが考えられるはずです。
その他の参考文献
関連研究
既存の情報幾何(Fisher幾何)に対するWasserstein幾何に関連するものとして
幾何学的話題
確率不等式
Talagrandのcenentration inequalityは非常に汎用性の高い不等式である.実際,局所Rademacher複雑さを用いたfast learning rateの導出に用いられている.
ユークリッド空間上の正規分布に基づくこれらの不等式の改良について考える.とくに,インプットする分散がある意味で大きい場合に最適な形で不等式が改良されることを報告する
defict\delta を不等式の両辺の差として定義する
\delta_{LSI}(\mu):=\frac{1}{2} I_\gamma(\mu) − Ent_\gamma(\mu)
\delta_{Tal}(\mu):=Ent_\gamma(\mu) -\frac{1}{2} W_2(\mu,\gamma)^2
deficit の非自明な下界を評価する
分散が小さい場合の改良
0 \lt \beta \le 1 を満たすとし\mu \in P^2_{ac}(R^n;\gamma) に対しcov(\mu)\le \beta I_n ならば
\delta_{LSI}(\mu) \ge \delta_{Tal}(\mu)=\frac{n}{2}(\log \beta-1\frac{1}{\beta})
\delta_{Tal}(\mu) \ge \frac{n(2(1-\beta)+(1+\beta)\log\beta)}{2(\beta-1)}
分散が大きい場合の改良
\mu \in \mathcal{P}^2(R^n), d\mu(x):=f(x)dx である確率密度関数fに対し
\nabla^2 \log f \ge −\frac{1}{\beta}I_n \Rightarrow cov(\mu) \ge \beta I_n
\nabla^2 \log f \le −\frac{1}{\beta}I_n \Rightarrow cov(\mu) \le \beta I_n
Delta \log f \ge −\frac{n}{\beta}I_n \Rightarrow Tr[cov(\mu)] \ge n\beta
Discussion