🔬

カルバックライブラーダイバージェンスとその周辺

2023/01/06に公開

情報理論

tech

この記事では、カルバックライブラーダイバージェンスの非負性の証明を行います。また周辺事項についてもまとめておきます(備忘録)。

拙著に書いた内容とオーバーラップがあります。

カルバックライブラーダイバージェンスとは?

アルファベットではKullback-Leibler divergenceと呼ばれ、2つの確率(密度)分布に対する距離(的なもの。厳密には異なる)です。物理では、相対エントロピーと呼ばれています。ダイバージェンスと付いていますが、ベクトル解析のダイバージェンスとは異なる概念です。以下では長いのでKLダイバージェンスと呼びます。以下では、確率密度に対して議論しますが本質的には離散変数に対する確率分布と同じです。また確率密度も確率分布とよんでしまいます。

確率分布間の距離を表すものなので、まず確率分布と
$p(x)$ 、 $q(x)$ を規格化された確率分布とします。つまり、

1 = \int dx\;\; p(x),\;\; 1 = \int dx\;\; q(x)

ここで積分範囲ですが確率変数 $x$ が定義されている領域としておきます。以下でも同様です。

です。そしてKLダイバージェンスは、

D(p||q) = \int dx\; p(x)\log\frac{p(x)}{q(x)}

と書かれます(積分範囲で $q(x)=0$ となる点は除外しておきましょう)。KLダイバージェンスは非負で距離っぽいのですが、 $p$ と $q$ を入れ替えたときに一般に変わってしまう、つまり $D(p||q)\neq D(q||p)$ なので距離の条件を満たさないため距離では有りません。一方で以下で示すとおり、 $D(p||q)=0$ となるのは $p=q$ のときのみなので距離のようでもあります。また一般化ピタゴラスの定理を満たします。

ダイバージェンスは他にもJensen-Shanon divergence などの仲間が知られています。

エントロピー、クロスエントロピーと相対エントロピー

KLダイバージェンスは相対エントロピーとも呼ばれますが、以下のような話があります。

まず、いわゆるエントロピーと呼ばれるシャノンエントロピーは

S[p] = - \int dx\; p(x)\log{p(x)}

で定義される非負のオブジェクトです。一方でクロスエントロピーは、

H[p,q] = - \int dx\; p(x)\log{q(x)}

と異なる確率分布で期待値を取ったエントロピーのようなものです。

そして $H[p,q]-S[p]$ を考えてみますと、それはKLダイバージェンス(相対エントロピー)になります。

H[p,q]-S[p]= \int dx\; p(x)\log{p(x)} - \int dx\; p(x)\log{q(x)},\\ =\int dx\; p(x)\log\frac{p(x)}{q(x)} = D(p||q)

証明

方針としては、1を足して引いて、それを確率分布の積分だと思い直して示していきます。最後に下に凸な関数の性質を使います。

\begin{align} D(p||q) &= \int dx\; p(x)\log\frac{p(x)}{q(x)},\\ &= \int dx\; p(x)\log\frac{p(x)}{q(x)} + 1 - 1,\\ &= \int dx\; p(x)\log\frac{p(x)}{q(x)} + \int dx\; q(x) - \int dx\; p(x),\\ &= \int dx\; [p(x)\log\frac{p(x)}{q(x)} + q(x) - p(x)],\\ &= \int dx\; p(x)[\log\frac{p(x)}{q(x)} + \frac{q(x)}{p(x)} - 1], \end{align}

ここで被積分関数の先頭の $p(x)$ 以外の部分を以下のようにおいて評価します。

f(y) = \log y + \frac{1}{y} - 1

ただし $y=p/q$ としていたので $y\geq 0$ です。
そして $f(y)$ は実は以下で示すように $y$ の関数として下に凸な関数です。
まず $y$ で微分すると、

\frac{df(y)}{dy} = \frac{1}{y} - \frac{1}{y^2}

$df/dy=0$ の解は、 $y=1$ です。この関数は $y<1$ で負、 $y>1$ で正の関数です。関数 $f(y)$ は $y=1$ で最低値 $0$ を取ります。

そして2階微分は、

\frac{d^2f(y)}{dy^2} = \frac{2-y}{y^3}

で、 $y=1$ のとき、 $[\frac{d^2f(y)}{dy^2}]_{y=1}=1>0$ なので $x=1$ で下に凸です。

そしてKLダイバージェンスの式を思い出すと $p(x)$ は確率密度なので $p(x)\geq 0$ ですので、関数 $f(y)$ の部分を含めても非負です。非負の関数を積分しても非負なのでKLダイバージェンスは非負です。

量子版

量子力学に出てくる密度行列 $\rho$ は確率密度の量子力学における対応物だと思えます。たとえば量子力学に出てくるフォン・ノイマンエントロピーは、

S = - \operatorname{Tr}[\rho \log \rho]

で定義されます。ここでトレースはヒルベルト空間全体で取ることにします。ちょうど積分をトレースに置き換えたものになっています。

KLダイバージェンスの対応物もあり、Kullback-Leibler　Umegaki divergenceと呼ぶべきもののようです [1] (DOI: 10.2996/kmj/1138844604)。

それは、2つの密度行列を $\rho, \sigma$ として、

D(\rho||\sigma) = \operatorname{Tr}\left[\rho \log \frac{\rho}{\sigma}\right]

と定義されます。こちらも積分をトレースに置き換えたものになっています。

カルバックライブラーダイバージェンスとは?

エントロピー、クロスエントロピーと相対エントロピー

証明

量子版

Discussion