Open7

強化学習を学ぶ

nomnomnonononomnomnonono

http://sysplan.nams.kyushu-u.ac.jp/gen/papers/paper2012/A_BasisOfRL.pdf

・実行した直後の報酬だけでは行動の良し悪しを判断できない
・定常政策においては、各時刻における報酬の期待値はその時刻の状態にのみ依存する
・MDP では少なくとも1つの最適政策が存在する
・状態遷移確率や報酬に関する事前知識がないため、環境とのやりとりを通じてこれらの情報を獲得する→強化学習アルゴリズム