🐶

期待値とは

2023/08/01に公開

今回は期待値について説明します。

期待値とは

期待値とは、「取りうる値×その確率」の総和です。
機械学習の文節では、期待値は無限回試行した時に取得できる報酬の平均値です。

式では
・期待値=報酬1×確率1 + 報酬2×確率2 + ... + 報酬n×確率n
のように表す事ができます。

報酬が確実に取得できる場合、
・報酬=期待値
となり、受け取れる報酬がそのまま期待値となります。

例:スロットマシン

例として、以下のようなスロットマシンA,Bを考えます

・スロットマシンA

もらえるコインの枚数 0 1 5 10
確率 0.70 0.15 0.12 0.03

・スロットマシンB

もらえるコインの枚数 0 1 5 10
確率 0.50 0.40 0.09 0.01

※これを確率分布表と呼びます。

はたしてどちらをプレイすればより多くのコインが手に入るでしょうか?
この問題を解決する指標となるのが期待値で、無限回プレイした時にもらえるコインの平均値に値します。

計算は報酬×確率の総和なので
スロットマシンA:0×0.70+1×0.15+5×0.12+10×0.03=1.05
スロットマシンB:0×0.50+1×0.40×5×0.09+10×0.01=0.95
※Aを無限回プレイすると、一回につき1.05枚コインがもらえる

となり、スロットマシンAをプレイすることで、より多くのコインが手に入ることが分かりました。このように、期待値は確率と報酬からなる事象の指標として取り入れることができます。

数学的な記述

この結果を数学的に書くと、E[R|A]=1.05となります。
これは、「行動Aを選んだ時の報酬Rの期待値」を表現しており、E[R|A]Aに対するRの期待値を表す関数である、ということを意味しています。

こういった記述は機械学習関連の書籍でも使われるため、慣れておくと良いでしょう。
また、報酬の期待値は、「価値」という言葉でも強化学習分野でよく利用されます。


それでは今回はここまでです。読んでいただきありがとうございました!

Discussion