強化学習(基礎からPPOまでとGymnasiumの使い方)

強化学習の基礎からLLMの学習にも使われるPPOアルゴリズムまでを整理した教科書です。Gymnasiumの使用法も解説します。

Chapters

Chapter 01無料公開

はじめに

Chapter 02無料公開

強化学習の問題設定

マルコフ決定過程(環境の定義)

MDPの例

方策

価値関数

プランニング問題

強化学習アルゴリズムの基本概念

Chapter 09無料公開

モンテカルロ法

時間差分学習

適格度トレース

TD(λ)アルゴリズム

方策勾配法

価値関数の関数近似

Actor-Critic法

Advanced Actor-Critic法：A2CとA3C

TRPO(Trust Region Policy Optimization)

PPO（Proximal Policy Optimization）

Chapter 19無料公開

Gymnasiumのuvを用いたセットアップ

Chapter 20無料公開

Gymnasiumによる環境の準備

Gymnasiumでのプランニング問題

Chapter 22無料公開

Gymnasiumでの強化学習実装1：モンテカルロ法とTD学習

Gymnasiumでの強化学習実装2：SARSA・Q学習・比較分析

Gymnasiumでの強化学習実装3：適格度トレースと発展的手法

Gymnasiumでの深層強化学習1：REINFORCE - 方策勾配法の基礎

Gymnasiumでの深層強化学習2：Actor-Critic法 - 価値関数による改善

Gymnasiumでの深層強化学習3：PPO・連続制御・実践応用

参考ガイドと終わりに

Chapter 29無料公開

参考文献

Author

TakuyaKubo

フリーランスでAI関連やってます。元中小企業のエンジニア/研究員/執行役員、量子情報理論のPhD。趣味はビールやボードゲーム。

Topics

公開: 2025/07/27
本文更新: 2025/08/30
文章量: 約382,510字
価格: 500円

「適格請求書発行事業者」登録済み