Open7
強化学習を学ぶ
・何をどうすべきかを報酬によって簡単に指示するだけで、どのように実現するかという制御規則を学習により自動的に獲得
・実行した直後の報酬だけでは行動の良し悪しを判断できない
・定常政策においては、各時刻における報酬の期待値はその時刻の状態にのみ依存する
・MDP では少なくとも1つの最適政策が存在する
・状態遷移確率や報酬に関する事前知識がないため、環境とのやりとりを通じてこれらの情報を獲得する→強化学習アルゴリズム
重要な論文等がまとめられている。
・環境内での行動に基づいた状態と報酬から反復的にQ値を更新
・状態数が多いと計算困難なため機械学習で近似→DQN