🥑
DeepMindがSIMA 2を発表
SIMA のスキーム

SIMA 2 のスキーム

主な違いは以下の点にありそう
目的・タスク
SIMA は自然言語による指示を行動に変換できるかどうかが主眼。実行するタスクも短いもの(~10秒程度)を対象にしている。
SIMA 2 は指示者とやりとりをしながら目標を達成できるかどうかが主眼。マルチステップで複雑なタスクを含む。
アーキテクチャ
SIMA は VLM + policy のような構成。
SIMA 2 については具体的なアーキテクチャの構成が示されていないが、Gemini がユーザーの指示を基に計画を立てて小さな行動に分割する。その後行動ポリシーでその操作を実行する。という形になっていると思われる。
データと学習
SIMA は人間由来のプレイデータに人間がラベルをつけたものを用いて学習している。
SIMA 2 は Gemini によるラベリングも利用する他、試行錯誤を Gemini で評価し (報酬を与え)、そのプレイデータを使って次の世代のエージェントを学習しているらしい (self-improvement cycle)。ここでいう学習対象が具体的にどこなのかは不明。

SIMA 2 は SIMA よりも人間の成績にかなり近づいている。また、訓練時に見たことのない環境についても良い成績を出せる。
Discussion