🧭

なぜ情報量の定義にログ（Logarithm: 対数）が使われるのか？

2025/01/27に公開

情報量の定義にログ（対数）が使われていることをご存知でしょうか？一見すると難しそうな数学的概念ですが、実は情報の性質を直感的に表現し、数学的に便利に扱うための重要なツールであるということが発覚しました。この記事では、なぜ情報量にログが使われるのかを整理します。

 はじめに：TF-IDFとの出会いそもそも、TF-IDF（Term Frequency-Inverse Document Frequency）という情報検索でよく使われる技術を学習している中で、ログの必要性に改めて気づいたことがきっかけで書いています。TF-IDFを理解する上で、情報量という概念が深く関わっており、その情報量を定義するためにログが使われていることを知りました。でもどうしてログを使う必要があるの？ということで、調べました。

 情報量とは？「驚き」を数値化する情報量とは、簡単に言うと「どれだけ驚いたか」を数値化したものです。普段当たり前に起きていることよりも、めったに起こらないことの方が、私たちに大きな「驚き」を与えますよね。この「驚き」を定量的に表すのが情報量です。
例えば、以下のような例を考えてみます。

例1: サイコロを振って「1」が出る（確率は1/6）。これは少し驚きがあります。

例2: 毎日必ず太陽が昇る（確率はほぼ1）。これは全く驚きません。
この例からもわかるように、めったに起こらない出来事（確率が低い出来事）ほど、得られる情報量が多いのです。

 なぜログを使うのか？情報量の定義に隠された理由情報量は、出来事の確率に深く関係しています。確率が低いほど情報量が大きくなる関係を満たすために、数学的な道具としてログ関数が使われます。具体的に見ていきます。

 (1) 確率が小さいほど情報量が大きくなる情報量 I(p) は、出来事の確率 p が小さくなるほど大きくなる必要があります。ログ関数は、確率が小さくなるほど急激に大きくなる性質を持っています。この関係を数式で表すと以下のようになります。

I(p) = -\log(p)
この式によって、確率 p が小さくなればなるほど、情報量 I(p) が大きくなるという直感的な関係を表現できます。

 (2) 独立した出来事の情報量を足し合わせられる（加法性）もし、2つの独立した出来事（例えば、コインを2回投げる）が起こる場合、全体の情報量はそれぞれの情報量を足し合わせたものが望ましいです。確率が独立である場合、P(A \cap B) = P(A) \times P(B) が成り立ちます。ログを使うと、この関係を簡単に足し算で表現できます。

I(A \cap B) = -\log(P(A \cap B)) = -\log(P(A) \times P(B)) = -\log(P(A)) - \log(P(B)) = I(A) + I(B)
このように、ログを用いることで、複雑な確率の計算を単純な足し算で扱うことができます。

 (3) 対数の底で情報量の単位を調整ログには底があります。情報理論では、通常、底として2（ビット単位で情報量を表す場合）や自然対数 e が使われます。
底が2の場合:  -\log_2(p) は、「その出来事を表すのに必要なビット数」と解釈できます。
底が e の場合: 情報量は「ナット」という単位で表されます。
このように、対数の底を適切に選ぶことで、情報量を様々な単位で表現することができます。

 具体例でさらに理解を深める
 サイコロの例サイコロを振ったとき、それぞれの目が出る確率は 1/6 です。このときの情報量は、底が2のログを使うと以下のようになります。

I(1/6) = -\log_2(1/6) \approx 2.585 \text{ ビット}
つまり、「サイコロのどの目が出たか」を知るためには、約2.585ビットの情報が必要になる、と解釈できます。

 宝くじの例もし宝くじが当たる確率が 1/10,000,000 だったとしましょう。このときの情報量は、

I(1/10000000) = -\log_2(1/10000000) \approx 23.25 \text{ ビット}
となります。この結果からも、非常に起こりにくい出来事ほど、得られる情報量が大きくなることがわかります。

 まとめ：情報量をログで表現するメリット情報量の定義にログが使われる理由は、以下の3つにまとめることができます。

確率が低い出来事ほど情報量が大きいという直感的な関係を、自然に表現できる。

独立した出来事の情報量を単純に足し合わせることができる（加法性）。

対数の底を変えることで、情報量の単位を柔軟に選択できる。
ログ関数を使うことで、情報理論はシンプルな数式で表現でき、現実の通信や圧縮技術など、様々な分野で活用されています。
この記事を通して、情報量とログの関係について少しでも理解を深めていただけたら幸いです。

はじめに：TF-IDFとの出会い

情報量とは？「驚き」を数値化する

なぜログを使うのか？情報量の定義に隠された理由

(1) 確率が小さいほど情報量が大きくなる

(2) 独立した出来事の情報量を足し合わせられる（加法性）

(3) 対数の底で情報量の単位を調整

具体例でさらに理解を深める

サイコロの例

宝くじの例

まとめ：情報量をログで表現するメリット

Discussion