ロボット基盤モデル開発コンペ Stage2始動:実世界でのマルチタスク実行性能の向上を目指して
1. Stage1・Stage2全体を通じたコンペ全体の目的
生成AIの登場以降、ロボティクス分野においても「ロボット基盤モデル(Robot Foundation Model)」の構築が世界的に重要な研究テーマの一つになっています。私たち一般社団法人AIロボット協会(AIRoA)は、日本の産業界からもこの流れに貢献していくため、産学官連携による大規模な開発コンペティションを推進しています。

本プロジェクトの全体像は、以下の2つのステージで構成されています。
- Stage1(探索フェーズ): 多様なアプローチを検証するため、6つの異なるアプローチを持つチームが並列で開発を行う。
- Stage2(深化フェーズ): Stage1で得られた知見を基に、有望なチームとアプローチにリソースを集約(選択と集中)。実用レベルの汎用モデル構築を目指す。

Stage2で掲げる主な目標は、Stage1での開発成果と課題を活用し、マルチタスクに汎化可能な基盤モデルの実現に挑戦することです。
2. Stage1の各グループのアプローチ
2025前半に実施されたStage1では、以下の6つの研究グループがそれぞれ独自のアプローチでロボット基盤モデルの可能性を探索しました。
-
グループ1. シミュレーションと強化学習によるfinetuning
- アプローチ: 実世界データで事前学習されたモデルを、シミュレーションを活用した強化学習で事後学習させる。人間データにはないリカバリー動作や汎化性能の向上を目指す。
-
グループ2. 階層型VLA(リーダー:山田潤 / Oxford大)
- アプローチ: サブタスクを推定しTask planningを行えるような階層型VLAの構築。Latent Action/Skillを学習し組み込むことで精度向上を狙う。
-
グループ3. ロボット基盤モデルへの制御学習手法適応(リーダー:太田佳 / 三菱電機)
- アプローチ: 強化学習など制御学習で培われた技術を基盤モデルに統合。力覚情報も含めた多様なモダリティへの対応を探索する。
-
グループ4. 世界モデルに基づく柔軟なロボット制御(リーダー:鈴木雅大 / 東京大学)
- アプローチ: 解くべきタスクに応じて環境を抽象化し、必要な予測のみを行う世界モデルを学習。低コストかつ汎用的な行動生成モデルの構築を目指す。
-
グループ5. 言語モデルとロボット基盤モデルの接続(リーダー:栗田修平 / 国立情報学研究所)
- アプローチ: データとアーキテクチャの両面から実世界知能に迫る。言語・視覚・動作の各データの特性を活かし、ロボットを高速に制御できるモデルを目指す。
-
グループ6. マニピュレーション特化型基盤モデル(リーダー:吉安祐介 / 産総研)
- アプローチ: 物体の把持・操作に特化し、人間の手のような器用さを実現する技術の確立。質の高いデータと低いデータをより分けて利用する戦略をとる。
3. Stage1のコンペ全体の結果・振り返り
Stage1の結果、シミュレーションおよびHSR(Human Support Robot)実機を用いた評価において、Group 5、Group 6が高いパフォーマンスを発揮しました。
- 意味理解と正確性(Group 5): 「リンゴを赤い箱に入れる」といった指定されたタスクに対して、安定して正しい計画と実行を行う様子が確認されました。
- リカバリー能力(Group 6): 把持に失敗して転がったボトルを、視覚的に追跡して再把持に成功する事例が見られました。これは、単なる模倣を超えたより頑健な制御挙動の可能性が示唆されました。
明らかになった課題: 一方で、プロジェクト全体としては「単一のポリシーで複数のタスクをこなす(マルチタスク汎化)」という点において、課題があることが判明しました。 大きなボトルネックは 「データの質」 でした。収集されたデータに含まれるノイズの対処など各チームはモデル開発以前のデータ品質の問題への対応を求められました。
4. 今後のPh1モデル開発とStage2コンペの目標・実施方針
Stage1で判明した課題を踏まえ、Stage2では、開発体制と目標の見直しを進めています。
目標: 実世界でのマルチタスク実行能力の向上
Stage2では、マルチタスクに汎化可能な基盤モデルの実現を主要な目標として設定しています。具体的には、運営側で事前に設定した評価候補タスクにおいて、成功率と動作品質(ルーブリック評価)を競います。評価の際には、評価候補タスクの中から運営が選定した複数タスク(各チームには非公開)の性能を測定します。
実施方針の転換:「質」と「検証」
単にデータを集めるだけでなく、その品質を保証する仕組みを導入しました。
- Rebakeパイプラインの活用: 収集されたデータは、新たに設置したデータ検証チームによるフィルタリングと人手によるチェックを受けます。 検証後のデータを使用することで、モデルが確実に模倣できる高品質なデータのみを学習に用います。
5. Stage2コンペの全体像
Stage2コンペティションは、探索から「深化」へのフェーズです。 Stage1で優秀な成績を収めたチームを中心に、リソースを集約します。
-
参加チーム:
- Group 5(マルチモーダル・エージェント / リーダー:栗田修平)
- Group 6(マニピュレーション / リーダー:吉安祐介)
- 期間: 2026年2月末まで
- 評価: HSR実機を用いたマルチタスクでの評価
6. 各グループのアプローチ(Stage2)
Stage2では、Stage1を勝ち抜いたGroup 5とGroup 6が、それぞれの強みを活かしてより汎化性能の高いモデルの構築に挑みます。
-
Group 5(リーダー:栗田修平 / 国立情報学研究所)
- 特徴: 言語と視覚のマルチモーダル理解に強みを持ちます。
- Stage2への意気込み: 「本グループは、言語、視覚(一人称視点動画)、動作の各データの特性を活かし、データとアーキテクチャの両面から実世界知能を目指します。」
- 栗田チームの強みである「意味理解」は、複雑な指示に従う汎用ロボットにとっての"脳"の役割を果たします。
-
Group 6(リーダー:吉安祐介 / 産総研)
- 特徴: ロボットの運動制御と動作計画に強みを持ちます。
- Stage2への意気込み: 「データの質に着目した戦略を取り込んだモデルを作ります.質の高いものと低いものをより分けて利用することでより効率的な学習を可能にし、よりスムーズな操作を行うVLAを目指します。」
- 吉安チームの強みである「身体制御」は、物理世界への確実な介入を行う"手"の役割を果たします。
Discussion