🤖

「基盤モデルとロボットの融合」読書メモ

2025/09/18に公開

書籍基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのかを読みました。書籍で扱っていた、気になったプロジェクト・研究・論文・参考情報についてメモ的にまとめます。
https://x.com/karaage0703/status/1961611289308127382

 On the Opportunities and Risks of Foundation Models基盤モデルという言葉が初めて用いられたスタンフォード大学のホワイトペーパー
https://arxiv.org/abs/2108.07258

 SayCanLLMを使ったロボットのタスクプランニングとして、最も有名な研究の1つ
https://say-can.github.io/

 Code as Policiesロボット自身が考え、みずからをプログラムする初期研究の1つ
https://arxiv.org/abs/2209.07753

 REFLECT基盤モデルがあらゆるモダリティを扱い、失敗や間違いをIn-Context Learningで再帰的に修正できることを示した論文
https://arxiv.org/abs/2306.15724

 CLIP-Fields自然言語から地図を生成
https://mahis.life/clip-fields/
https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-05-clip-fields/

 CLIPort自然言語から動作を直接生成
https://cliport.github.io/
https://www.docswell.com/s/DeepLearning2023/KJLNQE-dlcliport-what-and-where-pathways-for-robotic-manipulation-corl-2021

 SayTap/General Pattern Machines/Prompt2Walk基盤モデル（LLM含む）を低レベルな制御に使う例
コンセプト的に面白く、ちょっとやってみたいなと思っていたのでメモ

 GenAugロボット分野でのDataAugmentationの手法
https://genaug.github.io/

 RT-X22の異なるロボットにおける160,266のタスクに関する100万エピソード以上のデータセットと、そのデータセットを用いて学習されたロボット用の基盤モデルの開発に関する研究
https://robotics-transformer-x.github.io/

 ALOHAリーダー・フォロワー型のロボットでテレオペレーション（遠隔操作）をして、そのデータを教師データとしてACT（Action Chunking Transformer）と呼ばれる方策で学習
LeRobt SO-101もALOHAプラットフォーム。実際にやってみた例は以下。
https://zenn.dev/karaage0703/articles/df8a01214f9f5f
参考論文：
https://arxiv.org/abs/2304.13705

 取り上げていないもの重要だけど、自分の都合（すでに知っている、触っている）、興味があんまりないなどで、書籍では触れられているものの、この記事ではあえて取り上げてないものを簡単に触れておきます。これ以外にも自分が気づいてないものもあるかと思います。
以下単語列挙します。ジャンル、レベル感などはてんでバラバラです。今まで紹介した論文にも引用されたり、基礎となっていたりすることが多い要素です。
MLP、CNN、ResNet、LSTM、物体検出、セグメンテーション、YOLO、SLAM、SfM、RRT、MPC、強化学習、PID、順運動学/逆運動学、RNN、Seq2Seq、Transformer、スケーリング則、GAN、VAE、拡散モデル、BLIP2、Detic、SAM、GPT-4V、Eureka

 まとめ基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのかで気になった内容のメモをシェアしました。
書籍では、最初に今の最先端のロボット研究の位置づけを示した後に、この記事で紹介した過去の研究を、単に並べるだけでなく、研究の過去からの流れ、その研究がどのような意味を持ち何が重要なのかを分かりやすく解説し、AIロボット研究の全体感を最短でつかめる内容になっています。
面白くオススメの書籍です。ちなみに著者の松嶋さんとは同じ職場のよく知っている方なので、ダイレクトマーケティングです（ステマじゃないよ）！
基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのか

 参考リンクhttps://note.com/npaka/n/n54e328ba90e9
https://ugo-robot.hatenablog.com/entry/2025/09/05/170000

On the Opportunities and Risks of Foundation Models

SayCan

Code as Policies

REFLECT

CLIP-Fields

CLIPort

SayTap/General Pattern Machines/Prompt2Walk

GenAug

RT-X

ALOHA

取り上げていないもの

まとめ

参考リンク

Discussion