強化学習(基礎からPPOまでとGymnasiumの使い方)

強化学習(基礎からPPOまでとGymnasiumの使い方)

強化学習の基礎からLLMの学習にも使われるPPOアルゴリズムまでを整理した教科書です。Gymnasiumの使用法も解説します。

Chapters
Chapter 01無料公開

はじめに

Chapter 02無料公開

強化学習の問題設定

Chapter 03有料

マルコフ決定過程(環境の定義)

Chapter 04有料

MDPの例

Chapter 05有料

方策

Chapter 06有料

価値関数

Chapter 07有料

プランニング問題

Chapter 08有料

強化学習アルゴリズムの基本概念

Chapter 09無料公開

モンテカルロ法

Chapter 10有料

時間差分学習

Chapter 11有料

適格度トレース

Chapter 12有料

TD(λ)アルゴリズム

Chapter 13有料

方策勾配法

Chapter 14有料

価値関数の関数近似

Chapter 15有料

Actor-Critic法

Chapter 16有料

Advanced Actor-Critic法:A2CとA3C

Chapter 17有料

TRPO(Trust Region Policy Optimization)

Chapter 18有料

PPO(Proximal Policy Optimization)

Chapter 19無料公開

Gymnasiumのuvを用いたセットアップ

Chapter 20無料公開

Gymnasiumによる環境の準備

Chapter 21有料

Gymnasiumでのプランニング問題

Chapter 22無料公開

Gymnasiumでの強化学習実装1:モンテカルロ法とTD学習

Chapter 23有料

Gymnasiumでの強化学習実装2:SARSA・Q学習・比較分析

Chapter 24有料

Gymnasiumでの強化学習実装3:適格度トレースと発展的手法

Chapter 25有料

Gymnasiumでの深層強化学習1:REINFORCE - 方策勾配法の基礎

Chapter 26有料

Gymnasiumでの深層強化学習2:Actor-Critic法 - 価値関数による改善

Chapter 27有料

Gymnasiumでの深層強化学習3:PPO・連続制御・実践応用

Chapter 28有料

参考ガイドと終わりに

Chapter 29無料公開

参考文献

Author
TakuyaKubo
Topics
公開
本文更新
文章量
382,510
価格
500
「適格請求書発行事業者」登録済み