tmyoda

https://arxiv.org/pdf/2106.01345.pdf

Transformerで強化学習

従来と強化学習の扱い方を変えて、状態・行動・報酬の同時確率分布を自己回帰モデルとして扱う枠組みを提案

オフライン強化学習でSOTA

tmyoda

Decision Transformer architecture

State, Action, Return(embed) + positional timestep encodingを入力
トークンをGPTアーキテクチャへ入力し、Actionを予測

Figure 1

tmyoda

イントロ

近年Transformerは高次元な意味的な概念を学習できていることが示されている
TD法がRLでは主流
- 我々はてシーケンスモデリングを使ってエピソードを集めモデルを訓練する
TD法で用いられている将来の報酬の割引を行う必要がないため、近視眼的な行動をとらなくなる
Transformerはself-attentionによって直接割当ができるため、ベルマン方程式より報酬の伝搬が早い
- 報酬のノイズにロバスト
Offline RLでは誤差の累積と価値関数のオーバーフィットが課題

tmyoda

イラスト例

Shortest path問題

ゴールにたどり着いたら報酬0
それ以外は−1

ランダムウォークのデータからのみ学習
GPTはreturn-to-go(ある時刻以降に得られる報酬)のトークンのシーケンスを予測
- State, Action, Returnは1つのトークン

評価は現時刻の状態と、目的の報酬、過去の状態から次に行くべきノードを予測させる

その結果、与えた状態に対応する行動のシーケンスを出力でき、更に最短距離を出力できた（初期状態と、最も高いreturnの2つで条件付けた結果）
Atari, Gym, Key-to-doorで評価
特に長期タスクでは良い性能

tmyoda

Method

GPTが学べる形式
条件付けてactionが生成できるように
将来のリターンに基づいて行動を生成するモデルにするため、retrun-to-goを入力に

Trajectory

Return-to-go

トークンは
(state, action, return-to-go)

tmyoda

アーキテクチャ

last K timestepsを入力（合計3K token)
画像のinputだったらCNN
pos embedも入れる

学習

オフラインの軌跡からシーケンス長Kのミニバッチをサンプル
$s_t$ から $a_t$ を予測 (クロスエントロピー or MSE)
各timestepのロスは平均取る
state, returns-to-goの予測したけど改善しなかった

tmyoda

Evaluations on Offiline RL Benchmarks

model-free offline RL (TD法使うもの)
Behavior cloning

TD learning

比較手法

Conservative Q-Learning (Offline RL SOTA)
BEAR
BRAC

Imitation learning

BC

比較する環境

Atari (Discrete)
Gym (Continuous)
Key-To-Door?

それぞれのドメインでノーマライズ

tmyoda

Atari

visual input
DQN replay datasetの1%のみ使用
500 thousand / 50 million (1 %)
K=30 (pongはK=50)
3 seedの分散で評価

100がpro gamer
0がrandom player
scoreing(Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, and Jimmy Ba. Mastering atari withdiscrete world models.arXiv preprint arXiv:2010.02193, 2020)

tmyoda

OpenAI Gym

連続行動空間

D4RLと同じ方法でdatasetsを作成
2D reacher環境

Medium: 100万 timesteps "medium" policyによって生成, export policyの1/3の性能
Medium-Replay: "medium" policyを訓練するのに使ったreplay buffer (25K-400K timesptes)
Medium-Expert: "medium" policy によって生成された100万 timesteps + export policyによって生成された100万 timespteps