🥑

DeepMindがSIMA 2を発表

に公開

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

SIMA のスキーム

SIMA 2 のスキーム

主な違いは以下の点にありそう

目的・タスク
SIMA は自然言語による指示を行動に変換できるかどうかが主眼。実行するタスクも短いもの(~10秒程度)を対象にしている。
SIMA 2 は指示者とやりとりをしながら目標を達成できるかどうかが主眼。マルチステップで複雑なタスクを含む。

アーキテクチャ
SIMA は VLM + policy のような構成。
SIMA 2 については具体的なアーキテクチャの構成が示されていないが、Gemini がユーザーの指示を基に計画を立てて小さな行動に分割する。その後行動ポリシーでその操作を実行する。という形になっていると思われる。

データと学習
SIMA は人間由来のプレイデータに人間がラベルをつけたものを用いて学習している。
SIMA 2 は Gemini によるラベリングも利用する他、試行錯誤を Gemini で評価し (報酬を与え)、そのプレイデータを使って次の世代のエージェントを学習しているらしい (self-improvement cycle)。ここでいう学習対象が具体的にどこなのかは不明。


SIMA 2 は SIMA よりも人間の成績にかなり近づいている。また、訓練時に見たことのない環境についても良い成績を出せる。

Discussion