Open9

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

tmyodatmyoda

競争的なマルチエージェント環境(self play)のアイデアが他の領域でも有効化調べた論文

分散PPOを使用して大きなrollout buffer x 4GPU で学習
大きなバッチにすることで、バリアンスを減らし、探索にも効果があるとか

tmyodatmyoda

分散PPOを複数エージェントに適用するには2つポイントがある。

  • 疎な報酬での探索の問題
  • 訓練の安定性に影響を与える対戦相手の選択の問題

学習を成功させるには、まずランダム行動でタスクを解く必要がある。
連続行動空間で歩行させるのは極小の確率になる。

そこで、シンプル密なリワードを毎ステップ与えて、基本的な運動技能を学習できるようにする。
→訓練の初期段階の各ステップで報酬を使用。これを探索報酬と呼ぶ。線形アニーリングでだんだん減らしてく。

複雑な行動の獲得にはこのような密な報酬は邪魔。訓練エポックの10~15%程度しか与えてない。

tmyodatmyoda

最新の対戦相手に対してエージェントをトレーニングすると、訓練の初期段階で一方のエージェントが他方のエージェントよりも熟練度が高くなり、他方のエージェントが負け続けるようになる。2(a)

しかし、ランダムな古い相手に対して訓練すると、学習が上手くいく。self playの場合、過去全てに勝たなくてはならないことを意味し、ロバスト性が向上?

tmyodatmyoda

1イテレーション40万サンプル from parallel rollouts multiple epochs of PPO, 5120 mini-batches.
MLP policy 6 epoch, LSTM policy 3epoch.

tmyodatmyoda

4.1節のカリキュラム学習(密な報酬)がどう影響を及ぼしているかの実験

片方のエージェントはアニーリングありで、もう片方はアニーリングなしてずっと密な報酬を与えている。
また、学習に多くのサンプルが必要になる。

tmyodatmyoda

4.2節noの過去の方策をランダムサンプリングする方法の詳細について。

過去の履歴全体からではなく、Uniform(δv, v), vは最新パラメータのイテレーション数, δは[0,1]のしきい値
つまり、δ=1は最新ののみサンプリング、δ=0は履歴全体の一様サンプリング

δ∈{1.0, 0.8, 0.5, 0.0}で実験

  • δ=1が最悪
  • Antはδ=0.0が最も良い(全履歴から一様サンプル)
  • Humanoidはδ=0.5

Humanoidは初期の方はまともに動けておらず、数歩で勝敗が決まっちゃうからと考えられる。

サンプリング戦略の違いによるこれらの勝率の違いは、サンプリング時の対戦相手の選択が重要であることを示しており、このような競争環境での学習アルゴリズムを設計する際には注意が必要であることを示しています。

tmyodatmyoda

強化学習でもoverfitはある。(環境に変化があまりないときとか)
それの対処法について。

ランダム化
環境のランダム化はロバストなポリシーを学習するのに重要。(相撲のアリーナの半径を変えたり、サッカーのボールの位置をランダム化したり)
しかし、学習初期では、エージェントが探索すべきことが多すぎて学習の妨げになる可能性がある。そのため、学習初期はランダムの範囲を小さくして、学習が進んでいくとそれを大きくするカリキュラムを導入した。これはすべての環境に有効だった。

ポリシープール
長く訓練されたときに相手の行動にoverfitしてしまう。(異なるランダムシードで学習された相手などに弱いなどが見られた。)
そこで、プールから学習対象、相手を重複ありでランダムに選び学習させた。
このアンサンブルにより統計的強度が増してよいみたい。
Future workでこれを組み込むと良いかもって書いてあった。
Qiang Liu and Dilin Wang. Stein variational gradient descent: A general purpose bayesian inference
algorithm. In Advances In Neural Information Processing Systems, pp. 2378–2386, 2016.

AntとHumanoidで実験

  • Antの方は変わらなかった。

複雑性が高いタスクにアンサンブルは有効?

tmyodatmyoda

以下の手法を用いると(他のエージェントの動きを推論)もっと良いかも。
Jakob Foerster, Richard Chen, Maruan Al-Shedivat, Shimon Whiteson, Pieter Abbeel, and Igor
Mordatch. Learning with opponent-learning awareness. arXiv preprint arXiv:1709.04326, 2017a.

tmyodatmyoda
@inproceedings{DBLP:conf/iclr/BansalPSSM18,
  author    = {Trapit Bansal and
               Jakub Pachocki and
               Szymon Sidor and
               Ilya Sutskever and
               Igor Mordatch},
  title     = {Emergent Complexity via Multi-Agent Competition},
  booktitle = {6th International Conference on Learning Representations, {ICLR} 2018,
               Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings},
  publisher = {OpenReview.net},
  year      = {2018},
  url       = {https://openreview.net/forum?id=Sy0GnUxCb},
  timestamp = {Thu, 25 Jul 2019 14:25:42 +0200},
  biburl    = {https://dblp.org/rec/conf/iclr/BansalPSSM18.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}