
強化学習(基礎からPPOまでとGymnasiumの使い方)
強化学習の基礎からLLMの学習にも使われるPPOアルゴリズムまでを整理した教科書です。Gymnasiumの使用法も解説します。
Chapters
はじめに
強化学習の問題設定
マルコフ決定過程(環境の定義)
MDPの例
方策
価値関数
プランニング問題
強化学習アルゴリズムの基本概念
モンテカルロ法
時間差分学習
適格度トレース
TD(λ)アルゴリズム
方策勾配法
価値関数の関数近似
Actor-Critic法
Advanced Actor-Critic法:A2CとA3C
TRPO(Trust Region Policy Optimization)
PPO(Proximal Policy Optimization)
Gymnasiumのuvを用いたセットアップ
Gymnasiumによる環境の準備
Gymnasiumでのプランニング問題
Gymnasiumでの強化学習実装1:モンテカルロ法とTD学習
Gymnasiumでの強化学習実装2:SARSA・Q学習・比較分析
Gymnasiumでの強化学習実装3:適格度トレースと発展的手法
Gymnasiumでの深層強化学習1:REINFORCE - 方策勾配法の基礎
Gymnasiumでの深層強化学習2:Actor-Critic法 - 価値関数による改善
Gymnasiumでの深層強化学習3:PPO・連続制御・実践応用
参考ガイドと終わりに
参考文献
Author
Topics