💭

情報量、エントロピー、KL情報量についてまとめた

2024/03/06に公開

情報量

  • 情報量 ... 情報がどれだけ珍しいかを表す尺度
    I(x)=-\log P(x)
  • (今日の天気、人間関係、ゲームの値段が下がった)といった情報は、文章からその情報がどれだけの大きさかわからないため、比較のしようがない。そこで情報を情報量という概念で定量かし、比較可能にする

エントロピー(平均情報量)

  • 確率の不確実性や予測のむずかしさを表す尺度
    H(P)=-\sum_x^n P(x) \log P(x)
  • 90%の確率で当たりの出るくじがあるとすると、当たりのほうが圧倒的に出やすいため、エントロピーは小さくなる。
  • その一方で50%の確率で当たるくじの場合、当たるか外れるかはわからないため、エントロピーは大きくなる。
  • 一般的に、確率分布が一様の時にエントロピーは最大となる

交差エントロピー

  • 2つの確率分布を比較する際に用いられ、分布同士の違いが少ないほど0に近づき、違いが大きいほど大きな値を出力する。
    H(P, Q)=- \sum_{\omega}^{n} P(\omega) \log Q(\omega)
  • ここで、P(w)は正解の確率分布、Q(w)は予測した確率分布を表す

KL情報量(Kullback-Leiblerダイバージェンス)

  • 真の確率分布と別の確率分布の違いを比較する際に用いられる。かならず値は0以上で、2つの分布が全く同じ時に限り0になる。
  • 定義
    離散確率分布の場合
    D_{\mathrm{KL}}(P \| Q)=\sum_i P(i) \log \left(\frac{P(i)}{Q(i)}\right)

    連続確率分布の場合
    D_{\mathrm{KL}}(P \| Q)=\int P(x) \log \left(\frac{P(x)}{Q(x)}\right) d x
  • 一般に、2つの確率分布の近さを示すと解釈されるが、D(p, q) \neq D(q, p)なため、厳密には距離といえない。
  • KL損失はある確率分布を別の確率分布で近似する際の情報の損失を図る

交差エントロピーとKL情報量の違い

  • 交差エントロピーは2つの分布の間の違いを直接測る
  • KL情報量は2つの分布の情報量の損失を測る

参照

Discussion