📖

論文理解(Deep Reinforcement Learning for Soft, Flexible Robots: Brief Rev)

2023/02/25に公開

Deep Reinforcement Learning for Soft, Flexible Robots: Brief Review with Impending Challenges

  • 学会名 MDPI,2019
  • Bhagat, Sarthak and Banerjee, Hritwick and Ho Tse, Zion Tsz and Ren, Hongliang(敬称略)
  • 本論文のリンク

内容を簡単に説明(各章1文くらい)

ソフトロボットのエージェントの学習のための数理モデルを定式化することが難しいが,模倣学習のアルゴリズムを適用したところ十分な成果が得られている
DRLと模倣学習の技術をソフトロボットに適用してロボットシステムの制御を実現することに焦点をあてる
ソフトロボットでは行動空間と状態空間が大きいためポリシーの最適化に問題があるので適応型強化学習技術とともにニューラルネットに組み込むことで性能を向上させることができ,ここ10年でDRL(深層強化学習)の利用が進んでいる
よく用いられるDRL手法(本論文記載)
  • Deep Q-Network(DQN)
  • Deep Deterministic Policy Gradients(DDPG)
  • 正規化アドバンテージ関数(NAF)
  • 非同期型Advantage Actor Critic(A3C)
  • Advantage Actor Critic(A2C)
  • Guided Policy Search(GPS)
  • Trust Region Policy Optimization(TRPO)
  • Proximal Policy Optimization(PPO)
  • Actor-Critic Kronecker-Factored Trust-Region(ACKFTR)
深層強化学習
ソフトロボットのメカニズムを考慮した又は適したDRLのアルゴリズムの開発が進んでいる
ソフトロボットのナビゲーションのためのDRL
従来のロボット同様にソフトロボットにも自律的なナビゲーション機能が必要である.DRL技術を用いたナビゲーションの研究は進んでいる.
DRLによるソフトマニピュレーション
マニピュレーション分野ではソフトロボットとDRLを組み合わせることで満足のいく結果が得られることが確認されている.人間やハードのロボットに比べて制度や効率の面で優れている.
シミュレーションと実環境の違い
シミュレーションで学習させたものを実環境へ持ち込むにはまだまだ課題が多く存在する.simulationで利用されるプラットフォームには以下のようなものがよく利用されている.
  • Gazebo
  • Vrep
  • Airsim
  • Carla
  • Torcs
  • AI-2
  • Minos
  • House3D
ソフトロボットの制御の点では上記のシミュレータでは荷が重い.SOFAというシミュレータがソフトロボットの制御をするなら良い
ソフトロボットのアクチュエータの模倣学習
ソフトロボットの制御をDRLで実行するにあたり,トレーニング時間が長く計算コストが高く,適切に定式化された報酬関数を取得することが難しいことが大きな欠点となる.模倣学習はそのような問題を解決する.ソフトロボティクスの模倣学種は比較的新しい分野のため十分に研究されていない
SoftRobotとDRLの注目トピック2つ
RL+ILの統合:学習初期には専門家から学び、必要なときには自ら学習する能力.エキスパートの行動から学習し環境から景観を収集する
メタ学習:少ないデータサンプルからパラメータを見つけ出し,訓練されていない新しいタスクで良い結果を出す方法

提案されている手法

最近(2019年)のソフトロボット制御手法(DRL+IL)の紹介論文のため無し

解決した課題

同上

今後の展望

SoftRobotへRL+ILを取り入れることでソフトロボットの機能を向上させ,完全に自給自足の未をつくる

知らなかったこと,わからなかったこと

  • 模倣学習(IL)
    強化学習の1種であり,専門家の行動に近づくようにモデルのパラメータをトレーニングする
  • メタ学習
     複数のタスクの学習結果や学習過程を利用して新しいタスクの学習効率を上げる学習方法

Discussion