この記事では、カルバックライブラーダイバージェンスの非負性の証明を行います。また周辺事項についてもまとめておきます(備忘録)。
拙著に書いた内容とオーバーラップがあります。
カルバックライブラーダイバージェンスとは?
アルファベットではKullback-Leibler divergenceと呼ばれ、2つの確率(密度)分布に対する距離(的なもの。厳密には異なる)です。物理では、相対エントロピーと呼ばれています。ダイバージェンスと付いていますが、ベクトル解析のダイバージェンスとは異なる概念です。以下では長いのでKLダイバージェンスと呼びます。以下では、確率密度に対して議論しますが本質的には離散変数に対する確率分布と同じです。また確率密度も確率分布とよんでしまいます。
確率分布間の距離を表すものなので、まず確率分布と
p(x)、q(x)を規格化された確率分布とします。つまり、
1 = \int dx\;\; p(x),\;\;
1 = \int dx\;\; q(x)
ここで積分範囲ですが確率変数xが定義されている領域としておきます。以下でも同様です。
です。そしてKLダイバージェンスは、
D(p||q) = \int dx\; p(x)\log\frac{p(x)}{q(x)}
と書かれます(積分範囲でq(x)=0となる点は除外しておきましょう)。KLダイバージェンスは非負で距離っぽいのですが、pとqを入れ替えたときに一般に変わってしまう、つまりD(p||q)\neq D(q||p)なので距離の条件を満たさないため距離では有りません。一方で以下で示すとおり、D(p||q)=0となるのはp=qのときのみなので距離のようでもあります。また一般化ピタゴラスの定理を満たします。
ダイバージェンスは他にもJensen-Shanon divergence などの仲間が知られています。
エントロピー、クロスエントロピーと相対エントロピー
KLダイバージェンスは相対エントロピーとも呼ばれますが、以下のような話があります。
まず、いわゆるエントロピーと呼ばれるシャノンエントロピーは
S[p] = - \int dx\; p(x)\log{p(x)}
で定義される非負のオブジェクトです。一方でクロスエントロピーは、
H[p,q] = - \int dx\; p(x)\log{q(x)}
と異なる確率分布で期待値を取ったエントロピーのようなものです。
そしてH[p,q]-S[p]を考えてみますと、それはKLダイバージェンス(相対エントロピー)になります。
H[p,q]-S[p]=
\int dx\; p(x)\log{p(x)} - \int dx\; p(x)\log{q(x)},\\
=\int dx\; p(x)\log\frac{p(x)}{q(x)} = D(p||q)
証明
方針としては、1を足して引いて、それを確率分布の積分だと思い直して示していきます。最後に下に凸な関数の性質を使います。
\begin{align}
D(p||q)
&= \int dx\; p(x)\log\frac{p(x)}{q(x)},\\
&= \int dx\; p(x)\log\frac{p(x)}{q(x)} + 1 - 1,\\
&= \int dx\; p(x)\log\frac{p(x)}{q(x)} + \int dx\; q(x) - \int dx\; p(x),\\
&= \int dx\; [p(x)\log\frac{p(x)}{q(x)} + q(x) - p(x)],\\
&= \int dx\; p(x)[\log\frac{p(x)}{q(x)} + \frac{q(x)}{p(x)} - 1],
\end{align}
ここで被積分関数の先頭のp(x)以外の部分を以下のようにおいて評価します。
f(y) = \log y + \frac{1}{y} - 1
ただしy=p/qとしていたのでy\geq 0です。
そしてf(y)は実は以下で示すようにyの関数として下に凸な関数です。
まずyで微分すると、
\frac{df(y)}{dy} = \frac{1}{y} - \frac{1}{y^2}
df/dy=0の解は、y=1です。この関数はy<1で負、y>1で正の関数です。関数f(y)はy=1で最低値0を取ります。
そして2階微分は、
\frac{d^2f(y)}{dy^2} = \frac{2-y}{y^3}
で、y=1のとき、[\frac{d^2f(y)}{dy^2}]_{y=1}=1>0なのでx=1で下に凸です。
そしてKLダイバージェンスの式を思い出すとp(x)は確率密度なのでp(x)\geq 0ですので、関数f(y)の部分を含めても非負です。非負の関数を積分しても非負なのでKLダイバージェンスは非負です。
量子版
量子力学に出てくる密度行列\rhoは確率密度の量子力学における対応物だと思えます。たとえば量子力学に出てくるフォン・ノイマンエントロピーは、
S = - \operatorname{Tr}[\rho \log \rho]
で定義されます。ここでトレースはヒルベルト空間全体で取ることにします。ちょうど積分をトレースに置き換えたものになっています。
KLダイバージェンスの対応物もあり、Kullback-Leibler Umegaki divergenceと呼ぶべきもののようです [1] (DOI: 10.2996/kmj/1138844604)。
それは、2つの密度行列を\rho, \sigmaとして、
D(\rho||\sigma) = \operatorname{Tr}\left[\rho \log \frac{\rho}{\sigma}\right]
と定義されます。こちらも積分をトレースに置き換えたものになっています。
Discussion