はじめに
統計力学の基礎的な問題から関数論などがなぜ考えられるのかまとめてみようと思います。
この基礎的な問題から、機械学習の数理なども考えられるようです。
自分自身勉強中なので、今後内容が修正されたり、追加されることがあると思います。
(間違いなどのご指摘などありましたら、教えていただけると幸いです。)
また、細かい計算は、今後追加していこうと思います。
統計力学からランダム行列理論、関数論へ
統計力学の基礎的な問題
統計力学では熱力学的極限(Thermodynamic Limit)や流体力学的極限(Hydrodynamic Limit)を考えてミクロとマクロの関係をミクロの立場から考えることがこの学問の一つの大きな仕事です。
そのため、この熱力学極限と流体力学極限の存在、一意性、厳密解にはとても興味があります。
N個の粒子のハミルトニアン\mathcal{H}_Nについて、相互作用する系では直感的には以下のようなものがすぐに思いつくと思います。
\mathcal{H}_N(\bm{p}_j, \bm{q}_k) = \sum_{i=1}^{N} \dfrac{\bm{p}_i^2}{2m} + \sum_{1 \leq j+k \leq N} V(\bm{p}_j, \bm{q}_k)
ここで、\bm{p}は運動量であり、\bm{q}は一般化座標、Vはポテンシャルです。
これについてN \rightarrow \inftyの極限を考えると、ほとんどの場合、\inftyまたは-\inftyとなるので意味のない極限となってしまいます。
また、統計力学でよく登場するGibbs measure(直積測度)を考えても、
\dfrac{e^{-\beta \mathcal{H}_N(\bm{p}, \bm{q})}}{Z_N} \prod_{j = 1}^{N} \mathrm{d}\bm{p}_j\mathrm{d}\bm{q}_j
となるので、やはり発散してしまって、あまり嬉しくない結果となってしまいます。
DLR方程式
発散を解消するために、Dobrushin Lanford Ruelle方程式 (DLR方程式) を考えます。ここでは、厳密な数学ではなく、流れを意識して書きたいので、この方程式をなぜ考えるのかなどの概要を書こうと思います。(そのうち、詳しい内容について書こうと思います。)
まず、設定は以下のようなことを考えます。
- 状態空間
領域\Lambda上で、粒子が存在するとします。
- ハミルトニアン
系のエネルギー関数を\mathcal{H}(\sigma)として、\sigma = (\sigma_x)_{x \in \Lambda}は粒子の大きさや状態を表すパラメーターとします。
- 確率分布
領域全体 (\Lambda) の状態について定義されるGibbs測度\muは以下のような形式を持ちます。(\betaは逆温度と呼ばれます。)
\mu(\sigma) \propto \exp(-\beta \mathcal{H}(\sigma)) \quad (\beta = 1/k_B T)
このような設定の下でDLR方程式はGibbs測度\muが局所的に以下のような条件を満たすことを要求します。
任意の部分領域\Lambda_0 \subset \Lambdaに対して、\Lambda \setminus \Lambda_0上の状態\sigma_{\Lambda \setminus \Lambda_0}が固定された時の条件付き分布は、以下の形式になる。
\mu(\sigma_{\Lambda_0}|_{\sigma \Lambda \setminus \Lambda_0}) \propto \exp \left(-\beta \mathcal{H}_{\Lambda_0}(\sigma_{\Lambda_0}|_{\sigma \Lambda \setminus \Lambda_0}) \right)
ここで、\mathcal{H}_{\Lambda_0}は領域\Lambda_0に制限された局所ハミルトニアンを指す。
この条件付き確率分布がいかなる領域においても安定している場合、言い換えると任意の領域で定数である場合、先ほど考えたかった熱力学極限(流体力学極限)が発散せずに意味のある計算になるということです。
このように書かれると少し難しく感じますが、以下のようなことを考えるとイメージしやすいかもしれません。
上のような円盤\Lambdaの上に粒子が分布している状況を考えます。
内側の円盤上\Lambda_0で粒子が分布しており、内側の円盤以外の部分\Lambda \setminus \Lambda_0は、固定されている、つまり、熱浴となっています。この時の内側の粒子の分布がこの領域の取り方に寄らないとき、N \rightarrow \inftyの極限を考えることができるということです。
DLS方程式の適用範囲とSwell class potential
上で紹介したDLR方程式はうまく無限大の問題を回避していますが、すべての状況でwell-difinedなわけではなく、ポテンシャルVがSwell class potentialである場合のみです。
Swell class potentialは以下のような性質を持つポテンシャル関数V(r)です。
-
短距離性(short-range interaction)
V(r) \rightarrow 0 \quad \text{as} \quad r \rightarrow \infty
ポテンシャルV(r)は粒子間の距離rが大きくなると急速にゼロに収束します。つまり、相互作用は粒子が接近している場合にのみ顕著に現れるようになります。関数形としては、V(r) \propto e^{-\alpha r}であったり、V(r) \propto r^{-n}のような形になります。
-
有界性(Bounded below)と安定性(Stability)
ポテンシャル関数は、系が物理的に意味を持つように、下に有界である必要があります。
また、系全体のエネルギーを考えた時に負の無限大に発散しないように以下の条件も必要です。
\sum_{1 \leq i \leq j \leq N} V(|x_i - x_j|) \geq -CN
-
適切なエネルギー収束性と可積分性
\int_{\mathbb{R}^d} |V(r)| \mathrm{d}r < \infty
熱力学極限や流体力学極限が有限に収束するために、ポテンシャルの強さが制限されています。
このようなSwell class potentialの例としてLennard-Jones potentialなどが挙げられます。
短距離相互作用ではなく、長距離作用を考えるにはどうしたら良いでしょうか?ここで、登場するのが、ランダム行列理論です。
長距離相互作用する有限の粒子系
長距離相互作用する無限粒子系を考えるために、新しい理論が必要でした。
ここでは、ランダム行列の理論と、なぜこれで長距離相互作用する無限粒子系を考えることができるのか紹介したいと思います。
分布(密度関数)とポテンシャルの関係は、ボルツマン分布に従う場合、
p \propto e^{-\beta V(r)}
となるので、この形でかつ、ポテンシャルの形が、
\begin{align}
V(r) \propto \log r
\end{align}
となる場合を目指してみようと思います。
準備:エルミート行列
今回は、エルミートなランダム行列について考えていきます。(非エルミート行列については勉強中です。)
エルミート行列H = (H_{jk})_{1 \leq j,k \leq N}は以下のような性質を持つ行列です。
各成分について考えると、以下のようなことがわかります。
\begin{align}
\begin{cases}
H_{jj} = H_{jj}^{\mathrm{R}} \in \mathbb{R}\\
H_{jk} = H_{jk}^{\mathrm{R}} + iH_{jk}^{\mathrm{I}} \in \mathbb{C}\\
H_{kj} = H_{jk}^{\mathrm{R}} - iH_{jk}^{\mathrm{I}} \in \mathbb{C}
\end{cases}
\end{align}
ここで、^{\dagger}は随伴を取るという記号です。ここで、少し天下りではありますが、このエルミート行列Hの2乗のトレース\mathrm{tr}H^2について考えていきます。
\begin{align*}
\mathrm{tr}H^2 &= \sum_{j = 1}^{N} (H^2)_{jj}\\
&= \sum_{j = 1}^{N}\left( \sum_{k = 1}^{N} H_{jk} H_{kj} \right)
\end{align*}
ここで,
(2)式の結果を代入して、
(\text{RHS}) = \sum_{j = 1}^{N} (H_{jj}^{\mathrm{R}})^2
+ 2\sum_{j<k} \left\{ (H_{jk}^{\mathrm{R}})^2 + (H_{jk}^{\mathrm{I}})^2 \right\}
ここで、以下のような変形を考えます。
\begin{align*}
H_{jj}^{\mathrm{R}} = X_{jj} \\
H_{jk}^{\mathrm{R}} = \frac{1}{\sqrt{2}} X_{jk}^{\mathrm{R}}\\
H_{jk}^{\mathrm{I}} = \frac{1}{\sqrt{2}} X_{jk}^{\mathrm{I}}
\end{align*}
これより、
\begin{align}
\mathrm{tr}H^2 = \sum_{j = 1}^{N} (X_{jj}^{\mathrm{R}})^2
+ \sum_{j<k} (X_{jk}^{\mathrm{R}})^2 + \sum_{j<k} (X_{jk}^{\mathrm{I}})^2
\end{align}
となります。
(3)式を見てみると、これはn^2次元のユークリッド距離の2乗に等しいことがわかります。つまり、N^2次元のベクトル
\bm{X} = (X_{11}, \cdots , X_{NN}, X_{12}^{\mathrm{R}}, \cdots , X_{N-1 \, N}^{\mathrm{R}}, X_{12}^{\mathrm{I}}, \cdots , X_{N-1\, N}^{\mathrm{I}}) \in \mathbb{R}^{N^2}
を考えれば、\bm{X}と原点との距離が\mathrm{tr}H^2となるということです。
この考察から、
\left\{ H_{jk} \right\} \simeq \left\{ \bm{H} \right\}
であり、行列の成分の振る舞いが幾何的な問題として考えられることがわかりました。
エルミートなランダム行列と有限な粒子系
粒子の位置の同時密度関数
ここから、上で紹介したエルミート行列を用いて、N^2個の粒子の分布について考えていこうと思います。
一旦、今どんな行列を考えているのか見てみましょう。
H =
\begin{pmatrix}
X_{11} & \dfrac{1}{\sqrt{2}}\left(X_{12}^\mathrm{R} + i X_{12}^\mathrm{I}\right) & \cdots & \dfrac{1}{\sqrt{2}}\left(X_{1N}^\mathrm{R} + i X_{1N}^\mathrm{I}\right)\\
\dfrac{1}{\sqrt{2}}\left(X_{21}^\mathrm{R} + i X_{21}^\mathrm{I}\right) & X_{22} & \cdots & \dfrac{1}{\sqrt{2}}\left(X_{2N}^\mathrm{R} + i X_{2N}^\mathrm{I}\right)\\
\vdots & \vdots & \ddots & \vdots\\
\dfrac{1}{\sqrt{2}}\left(X_{N1}^\mathrm{R} - i X_{N1}^\mathrm{I}\right) & \dfrac{1}{\sqrt{2}}\left(X_{2N}^\mathrm{R} - i X_{2N}^\mathrm{I}\right) & \cdots & X_{NN}
\end{pmatrix}
この行列の各成分が粒子の位置に対応します。そして、X_{jk}^{\#} \overset{i.i.d}{\sim} \mathcal{N(0, \sigma^2)}であるとします。このように行列の成分が確率変数となるのが、ランダム行列と呼ばれる理由です。
ここでは行列の各成分が正規分布に従うことを考えましたが、従う分布をブラウン運動にしたのが、Dyson modelです。
密度関数は、以下のように表されます。
f_{X_{jk}^{\#}}(x_{jk}^{\#}) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_{jk}^{\#})^2}{2\sigma^2}}
今、全体の様子を考えたいので、
\bm{X} = (X_{11}, \cdots , X_{NN}, X_{12}^{\mathrm{R}}, \cdots , X_{N-1 \, N}^{\mathrm{R}}, X_{12}^{\mathrm{I}}, \cdots , X_{N-1\, N}^{\mathrm{I}})
に対して、同時密度関数f_{\bm{X}}(\bm{x})を考えると、
f_{\bm{X}}(\bm{x})\mathrm{d}\bm{x} \propto e^{-2 \sum_{j = 1}^{N} (x_{jj}^{\mathrm{R}})^2
+ \sum_{j<k} (x_{jk}^{\mathrm{R}})^2 + \sum_{j<k} (x_{jk}^{\mathrm{I}})^2 } \prod_{j = 1}^{N}\mathrm{d}x_{jj}\prod_{j<k}\mathrm{d}x_{jk}^\mathrm{R}\prod_{j<k}\mathrm{d}x_{jk}^\mathrm{I}
式(2)と微小量の部分をまとめて\mathrm{d}\underline{x}と書くことにして、
\begin{align}
f_{\bm{X}}(\bm{x}) \propto e^{-2\mathrm{tr}H^2} \mathrm{d}\underline{x}
\end{align}
となります。ここで、指数の方の係数2はのちに都合がいいのでつけているので、今のところで特に意味はありません。
ユニタリ行列による変数変換
さらに計算を進めるために、\mathrm{tr}H^2の部分に着目していきます。
エルミート行列はユニタリ行列Uを用いて対角化できるため、以下のように書くことができます。
U^{\dagger}HU = \Lambda = \mathrm{diag}(\lambda_1, \lambda_2, \cdots, \lambda_N)\\
逆に対角行列\Lambdaは以下のように書けます。
また、ユニタリ行列は逆行列と随伴行列が一致します。
UU^{\dagger} = U^{\dagger}U = I
これより、\mathrm{tr}H^2は以下のように計算ができます。
\begin{align}
\mathrm{tr}H^2 &= \mathrm{tr} \, UU^{\dagger}H^2 \notag \\
&= \mathrm{tr} \, U^{\dagger}H^2U \quad (\because \mathrm{tr}AB = \mathrm{tr}BA) \notag \\
&= \mathrm{tr} \, U^{\dagger}HUU^{\dagger}HU \notag \\
&= \mathrm{tr} \Lambda^2 \notag \\
&= \sum_{j=1}^{N}\lambda_j^2
\end{align}
これより、式(4)の指数の肩の部分については計算が出来ました。
粒子の分布から固有値の分布へ
変数変換をしたため、\mathrm{d}\underline{x}も変換が必要です。ここから、ヤコビアンJについて考えていきます。
計算の途中過程は今後追加する予定です。
\mathrm{d}\underline{x} = \left| \frac{\partial \underline{x}}{\partial(\lambda, U)} \right| \mathrm{d}\lambda\mathrm{d}U
この\mathrm{d}\lambda\mathrm{d}Uの前についているものがヤコビアンです。ヤコビアンは以下のように計算されます。
\begin{align}
J = \left| \frac{\partial \underline{x}}{\partial(\lambda, U)} \right| = \prod_{j<k}(\lambda_k - \lambda_j)^2 g(U)
\end{align}
これより、式(4)は式(5),(6)から以下のように書き直すことができます。
\begin{align}
f_{\bm{X}}(\bm{x}) \mathrm{d}\bm{x}\propto e^{-2\sum_{j=1}^{N}\lambda_j^2} \prod_{j<k}(\lambda_k - \lambda_j)^2 g(U)\mathrm{d}\lambda\mathrm{d}U
\end{align}
Uの成分については積分すると定数になるので、規格化定数をZとして、式(7)は以下の形式になります。
\begin{align*}
p^{(N)}(\underline{\lambda}) &= \int f_{\bm{X}}(\bm{x})\mathrm{d}U\\
&= \frac{1}{Z'}e^{-2\sum_{j=1}^{N}\lambda_j^2} \prod_{j<k}(\lambda_k - \lambda_j)^2 \int g(U) \mathrm{d}U\\
&= \frac{1}{Z}e^{-2\sum_{j=1}^{N}\lambda_j^2} \prod_{j<k}(\lambda_k - \lambda_j)^2\\
&= \frac{1}{Z}e^{-2\sum_{j=1}^{N}\lambda_j^2} e^{2\sum_{j<k}\log (\lambda_k- \lambda_j)}
\end{align*}
これより、
p^{(N)}(\underline{\lambda}) = \frac{1}{Z} e^{-\beta \mathcal{H}(\underline{\lambda})}
ただし、
\beta= 2 , \, \mathcal{H}(\underline{\lambda}) = \sum_{j = 1}^{N} \lambda_j^2 - \sum_{j < k}^{N}\log (\lambda_j - \lambda_k)
より、変数変換によって粒子の分布から固有値の分布に変化しましたが、求めたかった式(1)の形のモデルを作ることに成功しました。
いよいよここからが本番です。無限粒子系にするために、N \rightarrow \inftyの極限を考えます。
無限粒子系へ
ここからは、現在執筆中です。年内には完成させようと思います。
参考文献
ランダム行列の数理, 木村太郎, 森北出版株式会社, 2021.05
Discussion