🐾

標本平均(試行による価値推定)

2023/08/03に公開

今回は標本平均の手法について説明します。

標本平均とは

標本平均とは、実際に試行して得られた結果を、試行回数で割ったものです。

事象の期待値(価値)について、確率分布が分かっていれば計算で求めることができますが、現実の問題として事前に確率分布が分かっているものは少ないでしょう。

そこで、実際に試行して得られた結果から、価値を推測する手法が標本平均です。

n回試行した時の価値をQ_nとすると報酬Rを用いて
Q_n = \dfrac{R_1+R_2+・・・+R_n}{n}・・・(1)
と表す事ができます。

得られた報酬の平均を推定価値として扱っています。

簡略化

上式の計算はこれまでの報酬の値を全て足す必要があるため、メモリと計算量が増加します。
そのため、式変形により簡略化する事ができます。

式は
Q_{n-1} = \dfrac{R_1+R_2+・・・R_{n-1}}{n-1}
Q_{n-1}({n-1}) = {R_1+R_2+・・・R_{n-1}}

右辺を(1)に代入して
Q_n = \dfrac{Q_{n-1}({n-1})+R_n}{n}

Q_n = Q_{n-1} + \dfrac{1}{n}(R_n-Q_{n-1})

となり、Q_{n-1},(R_n),nの3つの値だけで求められるようになります。

非定常問題への展開

上式の\dfrac{1}{n}を定数a(0<a<1)に変更すると、過去に得た報酬Rが価値Qに与える影響が小さくなります。

これは、式で表すと次のようになります。
Q_n = Q_{n-1} + {a}(R_n-Q_{n-1})
展開して
Q_n = {a}R_n+(1-a)Q_{n-1}・・・(2)
よってn = n-1の時
Q_{n-1} = {a}R_{n-1}+(1-a)Q_{n-2})
左辺を(2)に代入して
Q_n = {a}R_n+a(1-a)R_{n-1}+(1-a)^2Q_{n-2}
※以降も同じ操作を繰り返し可
Q_n = {a}R_n+a(1-a)R_{n-1}+a(1-a)^2Q_{n-2}+(1-a)^3Q_{n-3}

a=0.9とすると
Q_n = {0.9}R_n+0.09R_{n-1}+0.009Q_{n-2}+0.0001Q_{n-3}

となります。これは、過去の報酬は減衰率aが乗算されて小さくなっていくことを示します。
この特性は最近の報酬を重視するという意味で、時間によって得られる報酬が変化する非定常問題に適しています。
これは過去の報酬が指数的に減少していることから、指数移動平均と呼ばれます。

今回はここまでです。読んでいただきありがとうございました。

Discussion