拡散モデルにおける熱力学的不確定性
実際には論文をかなり参考にしなければいけませんでした。
熱力学的不確定性(TUR)とは
変数xの関数である統計量Θ(x)とエントロピー生成
(<>はx平均) となる関係で非平衡な状態でも成り立つことから注目されています。
以下ではUncertainty relations in stochastic processes: An information inequality approachに基づき拡散過程に似たLangevin系の場合の導出を紹介します。
導出
パラメーター
とxの関数である統計量Θ(x)に対するCramer-Raoの不等式
(
ここで定常状態(stable state,ss)(分布関数
と天下り的に定義します。またxに依存した量
を考えると定常状態のカレント(流れ)
となります。ここで平均カレントjを
と定義しています。
経路
と書かれます。これからFisher情報行列
は
(・は伊藤積分)であることから
となり、
と書けます。
ここで系全体のエントロピー生成
と定義すると
熱力学的不確定性(TUR)の不等式
が得られます(平均カレントは
この
ただこのエントロピーの定義は唐突で解釈が難しいのでここで等式が成り立つ場合を考える。するとコーシー・シュワルツの不等式が等式になる条件から分布関数は
という条件を満たされなければいけないことがわかります(定数
に対してエントロピー生成は
と書け、第1項は熱力学的(
のである条件ではエントロピー生成として解釈できると言えます。
一方Fluctuation-response inequality out of equilibriumではまずパラメーターaと観測量hに関するキュムラントの母関数の式
からJensenの不等式を使ってKLダイバージェンスとの間の不等式を導き、そしてある経路
というより一般的な式を導出しています。
「非平衡統計力学」では特定の物理系(マルコフジャンプ過程、Langevin系)の場合についてCramer-Rao不等式を用いて証明しています。この他「数理科学2020年 11 月号 情報幾何の探求」では時間tをパラメーターとみなしてFocker-Plank方程式を変形させた同一の式
からコーシー・シュワルツの不等式
を使って1つ目の式からCramer-Raoの不等式、2つ目の式から熱力学不確定性を導出しています。
解釈
ある場合、等式が成り立つ場合にエントロピー生成に物理的意味づけができることは上に書いたとおりです。
またFluctuation-response inequality out of equilibriumではある経路に対する分布関数と逆過程の経路の分布関数間のKLダイバージェンスがエントロピーとして解釈できることから不確定性関係の高次の項を足す形が導き出されています(式(30),(31))
機械学習、AIの学習、生成過程においては原理的にはすべての変数は計算機の中にあるので見ることができます(GPUからCPUに値を移さないほうがずっと高速に計算できますが)。なので右辺から左辺あるいは逆に推定することはあまり意味がないかもしれません。しかしエントロピーは分布の形状に依存し、KLダイバージェンスは変形前後の確率分布間の差異です。変数x(画像や画像を入力としたVAEの出力である隠れ変数)の移動の分散がエントロピーによって抑えられるというのは生成サンプリングと分布の間の関係であり自明でないようにも思えます。
そのため物理系と同様に意義があるかもしれません(わかりやすいマンガ )。
一方で拡散モデルでは時間と一緒に関数形(パラメーター)が変化するので式変形は異なり、非平衡定常過程ではありません。これが関係の導出に影響を与えそうです。
TURはいつ満たされるか
TURが成り立たない場合としてUncertainty relations in stochastic processesではモデルが非線形な場合、Fluctuation-response inequality out of equilibriumでは離散マルコフ連鎖(MCMCの詳細釣り合い条件は満たさない)が挙げられています。ただし前者ではリミットサイクルの力学系の数値計算でもかなりの範囲で近似的に成り立ち、後者ではTURの一般化した式が厳密解を満たすことが図から見てとれます。拡散過程、逆拡散過程は非平衡非定常であり、リミットサイクルも長時間平均が取れます[1]。あるいは長時間平均を取らないと意味がないのか?
補足 非定常な場合のTUR
「非平衡統計力学」によると統計量
という形で書かれるそうです。導出は
- Thermodynamic Uncertainty Relation for Time-Dependent Driving
-
Current fluctuations and transport efficiency for general Langevin systems
などに書かれているそうです。後者の議論はキュムラント母関数から始まるのが共通しています。
展望、やるべきこと
- パラメーターと時間がともに変化する場合の式の導出
- 数値実験 diffusersを使いたい、どうにかして非線形性の影響、TURの破れを見る。
- DDIM, PNDM,DPMSolverなど様々な拡散モデルの生成方法の違いあるいは等価性の説明
- 速度限界の導出
- 学習過程への適用 無限次元ランジュバンを用いる?
- 「非線形統計力学」4章ではマックスウェルの悪魔についての説明、つまり情報論的エントロピーと熱力学的エントロピーの統一的扱いについてさらに詳しく説明されている。「ディープラーニングと物理学」の最初で触れられているように”マックスウェルの悪魔が絵を描く”状況担ってしまったのでその様子を非平衡熱力学の言葉で理解したい。
- 参考にした本、論文ではTURの導出とCramer-Raoとの関係が全て微妙に違うように見えます。「非平衡統計力学」によると大偏差原理を使った方法と情報理論的な方法があるらしいです。統一的な理解がしたいです。
参考書、論文
- Uncertainty relations in stochastic processes: An information inequality approach
- Multidimensional thermodynamic uncertainty relations 多次元ランジュバン系でのTURが述べられている。
- Fluctuation-response inequality out of equilibrium
- 数理科学2020年 11 月号 情報幾何の探求
Cramer-Rao不等式の証明に関しては普通の統計学の本
や情報幾何学の本 を参照しました。後者には大偏差原理と情報幾何の関係も少し書かれています。さらなる情報幾何の話
拡散モデルについては
さらなる参考文献
-
TURのチュートリアル
Time-dependent TURというのがあるらしいです -
Continuous time reversal and equality in the thermodynamic uncertainty relation
-
Thermodynamic uncertainty relations constrain non-equilibrium fluctuations
-
Geometric decomposition of entropy production in out-of-equilibrium systems
-
Non-Equilibrium Steady State Response and Fluctuations of Sheared Nematic Liquid Crystals
-
論文ではリミットサイクルの周期未満のデータで不確定性に一致する結果が得られています(FIG2 b ↩︎
Discussion