「基盤モデルとロボットの融合」読書メモ
書籍基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのかを読みました。書籍で扱っていた、気になったプロジェクト・研究・論文・参考情報についてメモ的にまとめます。
On the Opportunities and Risks of Foundation Models
基盤モデルという言葉が初めて用いられたスタンフォード大学のホワイトペーパー
SayCan
LLMを使ったロボットのタスクプランニングとして、最も有名な研究の1つ
Code as Policies
ロボット自身が考え、みずからをプログラムする初期研究の1つ
REFLECT
基盤モデルがあらゆるモダリティを扱い、失敗や間違いをIn-Context Learningで再帰的に修正できることを示した論文
CLIP-Fields
自然言語から地図を生成
CLIPort
自然言語から動作を直接生成
SayTap/General Pattern Machines/Prompt2Walk
基盤モデル(LLM含む)を低レベルな制御に使う例
コンセプト的に面白く、ちょっとやってみたいなと思っていたのでメモ
GenAug
ロボット分野でのDataAugmentationの手法
RT-X
22の異なるロボットにおける160,266のタスクに関する100万エピソード以上のデータセットと、そのデータセットを用いて学習されたロボット用の基盤モデルの開発に関する研究
ALOHA
リーダー・フォロワー型のロボットでテレオペレーション(遠隔操作)をして、そのデータを教師データとしてACT(Action Chunking Transformer)と呼ばれる方策で学習
LeRobt SO-101もALOHAプラットフォーム。実際にやってみた例は以下。
参考論文:
取り上げていないもの
重要だけど、自分の都合(すでに知っている、触っている)、興味があんまりないなどで、書籍では触れられているものの、この記事ではあえて取り上げてないものを簡単に触れておきます。これ以外にも自分が気づいてないものもあるかと思います。
以下単語列挙します。ジャンル、レベル感などはてんでバラバラです。今まで紹介した論文にも引用されたり、基礎となっていたりすることが多い要素です。
MLP、CNN、ResNet、LSTM、物体検出、セグメンテーション、YOLO、SLAM、SfM、RRT、MPC、強化学習、PID、順運動学/逆運動学、RNN、Seq2Seq、Transformer、スケーリング則、GAN、VAE、拡散モデル、BLIP2、Detic、SAM、GPT-4V、Eureka
まとめ
基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのかで気になった内容のメモをシェアしました。
書籍では、最初に今の最先端のロボット研究の位置づけを示した後に、この記事で紹介した過去の研究を、単に並べるだけでなく、研究の過去からの流れ、その研究がどのような意味を持ち何が重要なのかを分かりやすく解説し、AIロボット研究の全体感を最短でつかめる内容になっています。
面白くオススメの書籍です。ちなみに著者の松嶋さんとは同じ職場のよく知っている方なので、ダイレクトマーケティングです(ステマじゃないよ)!
基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのか
参考リンク
Discussion