Statementと概要
[3]では拡散過程に関してデータの分布p0とscore関数によって得られる分布q0間のWasserstein距離
W2(μ,ν):=inf{∫Rd×Rd∥x−y∥2dγ:γ∈Π(μ,ν)}21.
がscore関数sθ(x,t)とそのLipschiz定数Lf
∥f(x,t)−f(y,t)∥≤Lf(t)∥x−y∥
と片側Lipschiz定数Ls
(sθ(x,t)−sθ(y,t))(x−y)≤Ls(t)∥x−y∥2
によって
W2(p0,q0)≤∫0Tg(t)2I(t)Ept[∥∇logpt(x)−sθ(x,t)∥2]21dt+I(T)W2(pT,qT)
I(t):=exp(∫0t(Lf(r)+Ls(r)g(r)))
とboundされると主張している(g(t)は拡散係数,Theorem 1)。
[3]で引用されている[4]の定理の証明を含めてその導出を解説する
pdf版
https://drive.google.com/file/d/14OhWSc7bG-Gb6E-bGsXj0ZSTzd_6YIbe/view?usp=sharing
証明解説
Wasserstein距離の微分(Theorem 5.24 of [4])
連続の式 ∂tρti+∇⋅(vtiρti)=0
に従い時間tによって発展する2つの分布ρt1,ρt2間のp-Wasserstein距離は
dtdWpp(ρt1,ρt2)=∫∇ϕtvt1ρt1dx+∫∇ψtvt2ρt2dx
ϕt,ψtはKantorovich potential
証明(と説明):
Wasserstein距離を解とする分布関数μ,ν間の最適輸送問題
infγ[∫X×Yd(x,y)dγ(μ,ν)]
(∫Xdγ=μ,∫Ydγ=ν)
の双対問題はKantorovich
potentialϕt,ψt(未定定数に由来)を探す問題として
maxϕ,ψ[p1Wpp(μ,ν)−∫Yϕμ−∫Xψν]≥0
(p1Wpp(μ,ν)=∫ϕdμ+∫ψdν−(∫XY(ψ+ϕ−d(x,y))dγ(x,y))
から) と書くことができることから
dtdWpp(ρt1,ρt2)∣t=t0=dtd(∫ϕt0ρt1+∫ψt0ρt2)
=∫ϕt0∂tρt1∣t0+∫ψt0∂tρt2∣t0
=−∫ϕt0∇(ρt1vt1)∣t0−∫ψt0∇(ρt2vt2)∣t0
=∫∇ϕt0(ρt01vt01)+∫∇ψt0(ρt02vt02)∣
最適輸送Tに対して∇ϕt(x)=x−T(x)=x−y,∇ψt(y)=y−St(y)とおくことで
=∫(x−y)(vt1ρt1(x)−vt2ρt2(y))dx
と書ける。([3]論文の式(27))
この結果は連続の式がコンパクトな領域で成り立ち、任意のtに対してρtiが可測(ρti<<Ld)、絶対連続の場合であり、
より一般にρtiがLipschizの場合に関して[@OTAM-cvgmt]では論じられている。
Lemma 2
Eπt[(x−y)⋅(∇logqt(y)−∇logpt(x))]は非正
説明:
Breinerの定理からptからqtへの最適輸送写像の凸関数Ttに関するKantorovichポテンシャル∇ϕ=Ttが存在して
連続な増加関数fとに対して半径Rの超球BRに対して
∫BRxBR(x−y)(qt(y)1∇f(qt)(y)−pt(x)1∇f(pt)(x))dπt(x,y)
と書け、[1]のTheorem 1の証明の式(7)から
=∫BR∇(f(qt))(y)(y−∇ϕt∗)dy+∫BR∇(f(pt))(x)(x−∇ϕt)dx
=∫BRf(qt)(Δϕt∗−d)dy−∫∣y∣=Rf(qt)(∇ϕt∗(y)∣y∣ydy)∫BRf(pt)(Δϕt−d)dx−∫∣x∣=Rf(pt)(∇ϕt(x)∣x∣xdx)
(R→∞とする)
=∫BRf(qt)(Δϕt∗−d)dy+∫BRf(pt)(Δϕt−d)dx
fとして恒等関数をとるとqt(y)1∇f(qt)=logqt(y)となり
Eπt[(x−y)⋅(∇logqt(y)−∇logpt(x))]=−Ept[Δϕt+Δϕt∗(∇ϕt)−2d]
とかける(ϕt∗はϕtのconvex condugete)。この最後の式は[@BOLLEY20122430]のLemma3.2では∇2ϕ(x)が(n次元の)直交行列Oと正定値対角行列DでODO∗と書けることから
∇ϕ∗(∇ϕ(x))=x (最大化引数)
∇2ϕ∗(∇ϕ(x))∇2ϕ(x)=Id
∇2ϕ∗(∇ϕ(x))=(∇2ϕ(x))−1=OD−1O∗
Δϕ(x)+Δϕ∗(x)(∇ϕ(x))−2n=∑idi+∑idi1−2n=∑i(di+di1)≥0
となることから負になると説明されている。(次元が登場するところが曲率次元条件に似ている)
Lemma 1
Eπt[(x−y)(vqt(y)−vpt(x))]≤W2(pt,qt){(Lf+Lsg2)W2(pt,qt)+g2b1/2}
b:=Ept[∣∇logpt(x)−sθ(x,t)∣2]
証明解説
Fokker-Plank方程式から
Eπt[(x−y)(vqt(y)−vpt(x))]=Eπt[(x−y)(f(y,t)−f(x,t))]
+g2Eπt[(x−y)(∇logpt(x)−sθ(y,t))]+2g2Eπt[(x−y)(∇logqt(y)−∇logpt(x))]
Lemma 2から3番目の項は0以下になる。最初の項はfのLipschitz性から
Eπt[(x−y)(f(y,t)−f(x,t))]≤LfEπt[∣x−y∣2]=LfW22(pt,qt)
2番めの項 g2Eπt[(x−y)(∇logpt(x)−sθ(y,t))] は
I1:=g2Eπt[(x−y)(sθ(x,t)−sθ(y,t))]
I2:=g2Eπt[(x−y)(∇logpt(x)−sθ(x,t))]
コーシー・シュワルツの不等式から
I2≤g2Eπt[∣x−y∣2]21Eπt[∣∇logpt(x)−sθ(x,t)∣2]21
さらに
Eπt[∣∇logpt(x)−sθ(x,t)∣2]=Ept[∣∇logpt(x)−sθ(x,t)∣2]
なので
I1+I2≤g(t)W2(pt,qt){LsW2(pt,qt)+b(t)21}
Theorem 1(主定理)
W2(p0,q0)≤∫0Tg(t)2I(t)Ept[∥∇logpt(x)−sθ(x,t)∥2]21dt+I(T)W2(pT,qT)
証明:
Wasserstein距離の微分(Theorem 5.24 of [4])とLemma
1の両辺からW2(pt,qt)を割って
−dtdW2(pt,qt)≤(Lf+Lsg2)W2(pt,qt)+g2b1/2
ここで
I(t):=exp(∫0t(Lf+Lsg2)dr)
b(t):=Ept[∣∇logpt(x)−sθ(x,t)∣2]
と置くとdtdI(t)=(Lf+Lsg2)I(t)
−dtd(I(t)W2(pt,qt))≤g2b1/2
これを積分して
I(0)W2(p0,q0)−I(T)W2(pT,qT)≤∫0Tg(t)2b(t)1/2I(t)dt
I(0)=1とすると
W2(p0,q0)≤∫0Tg(t)2I(t)Ept[∥∇logpt(x)−sθ(x,t)∥2]21dt+I(T)W2(pT,qT)
が結論付けられる。
注意点
Lipschiz定数の推定はNP hard問題らしい
感想
Wasserstein距離がscore関数の2乗誤差で抑えられるのは統一的な見方ができるのかもしれないが、一方でWasserstein score functionというものも提唱されていて[5]どういう関係があるのだろうか。
次元が絡むところから曲率次元条件と何らかの関係があるのかもしれない。
参考文献
[1] Fran¸cois Bolley and Jos´e A. Carrillo. Nonlinear diffusion: Geodesic convexity is equivalent
to wasserstein contraction, 2014.
https://arxiv.org/abs/1309.1932
[2] Fran¸cois Bolley, Ivan Gentil, and Arnaud Guillin. Convergence to equilibrium in wasserstein distance for fokker–planck equations. Journal of Functional Analysis, Vol. 263, No. 8,
pp. 2430–2457, 2012.
https://arxiv.org/abs/1110.3606
[3] Dohyun Kwon, Ying Fan, and Kangwook Lee. Score-based generative modeling secretly minimizes the wasserstein distance, 2022.
https://arxiv.org/abs/2212.06359
[4] Filippo Santambrogio. Optimal transport for applied mathematicians. calculus of variations, pdes and modeling. 2015.
https://link.springer.com/book/10.1007/978-3-319-20828-2
[5] Amari Shun-ichi and Matsuda Takeru. Wasserstein statistics in one-dimensional location
scale models, 2022.
https://link.springer.com/article/10.1007/s10463-021-00788-1#citeas
https://arxiv.org/abs/2007.11401
https://arxiv.org/abs/1910.11248
https://arxiv.org/abs/2307.12508
Discussion