期待値とは
今回は期待値について説明します。
期待値とは
期待値とは、「取りうる値×その確率」の総和です。
機械学習の文節では、期待値は無限回試行した時に取得できる報酬の平均値です。
式では
のように表す事ができます。
報酬が確実に取得できる場合、
となり、受け取れる報酬がそのまま期待値となります。
例:スロットマシン
例として、以下のようなスロットマシンA,Bを考えます
・スロットマシンA
もらえるコインの枚数 | 0 | 1 | 5 | 10 |
---|---|---|---|---|
確率 | 0.70 | 0.15 | 0.12 | 0.03 |
・スロットマシンB
もらえるコインの枚数 | 0 | 1 | 5 | 10 |
---|---|---|---|---|
確率 | 0.50 | 0.40 | 0.09 | 0.01 |
※これを確率分布表と呼びます。
はたしてどちらをプレイすればより多くのコインが手に入るでしょうか?
この問題を解決する指標となるのが期待値で、無限回プレイした時にもらえるコインの平均値に値します。
計算は報酬×確率の総和なので
スロットマシンA:
スロットマシンB:
※Aを無限回プレイすると、一回につき1.05枚コインがもらえる
となり、スロットマシンAをプレイすることで、より多くのコインが手に入ることが分かりました。このように、期待値は確率と報酬からなる事象の指標として取り入れることができます。
数学的な記述
この結果を数学的に書くと、
これは、「行動
こういった記述は機械学習関連の書籍でも使われるため、慣れておくと良いでしょう。
また、報酬の期待値は、「価値」という言葉でも強化学習分野でよく利用されます。
それでは今回はここまでです。読んでいただきありがとうございました!
Discussion