🙌

Beyond LLM > 「世界モデル(World Foundation Model)」とは何か?

に公開

注目されるフィジカルAIと、実現に必要な世界モデル(World Foundation Model)の概念

フィジカルAIとは

フィジカルAI(Physical AI)とは、物理世界で直接行動し、環境と相互作用できるAIシステムのことです。従来の画面上で動作するAIとは異なり、ロボットや自動運転車などの物理的な実体を持ち、現実世界の複雑な状況に対応できる点が特徴です。

これまでも、AIを中心とした産業用ロボットへの応用は、CNNなどのコンピュータビジョン分野を中心に行われてきました。しかし、フィジカルAIが大きく盛り上がる転機となっているのは、Transformerの発展です。

https://youtu.be/gn5yZLdDI5c?si=oPKXErT1d0nhk1Xu

TransformerからViTへ、そしてロボティクスへ

Transformerは、トークンを使った自然言語処理で活用されているアーキテクチャですが、「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との発想から、コンピュータビジョンでの活用が始まりました。

ViT(Vision Transformer)と呼ばれる仕組みは、大規模データセットで事前学習すると、CNNを上回る精度を達成し、徐々に発展しています。この仕組みをロボットなどの制御に活用するという観点で大きく注目されています。

近年では、Hugging Faceが公開したSO-101と呼ばれるオープンロボットアームが5万円ほどで入手できることから、手軽にこうしたフィジカルAIを試すことができるなど、盛り上がりを見せています。

https://youtu.be/bJNcCPMUb9A?si=eBa3ldJVRrVoIyc6

世界モデル(World Foundation Model)の必要性

このような状況の中で、必要視されているのが、世界モデルと呼ばれるシミュレーション環境です。

フィジカルAIが世界を理解するためには膨大なデータが必要となりますが、機械学習の父と呼ばれるヤン・ルカン氏は、フィジカルAIに圧倒的に足りていないものとして、3D認識能力を持つLLMであると指摘しています。

既存のLLMには空間認識力がなく、子供がスプーンを使ってものを食べるといった基本的な動作すら理解できません。これは、既存のLLMが学習しているのが主にテキストデータであるため、3D的な認識が欠けているからです。

これを克服するために必要なのが、**世界モデル(World Foundation Model)**です。従来の生成AIが画像や文章といった静的なコンテンツを生成することに焦点を当てていたのに対し、世界モデルは動的な環境や物理法則を理解し、インタラクティブな仮想世界を生成・予測する能力を持つ革新的な技術です。

https://youtu.be/9Uch931cDx8?si=ddbkVhBFic6Wn7wq

動画生成モデルから世界モデルへ

世界モデルを構築する基盤となるのは、動画生成モデルです。SoraやMidjourneyといった有名なモデルの多くは、単に動画を生成するだけではなく、ワールドモデルとしての目的があると述べられています。

近年発表されたGenieというモデルは、自由に仮想空間を歩き回れるだけではなく、将来的にはエージェントとの会話が可能であるとされています。動画生成モデルをもとに、リアルタイムで、さらには物理的な挙動やエージェントとの会話などを含む仕組みを提供する可能性があります。

https://youtu.be/PDKhUknuQDg?si=mPGLIpNVHbvCbMTV

物理シミュレーションへの応用:JEPA

世界モデルがリッチになったときに、物理空間でのシミュレーションに利用することができます。このことを示しているのがJEPA(Joint-Embedding Predictive Architecture)と呼ばれるモデルです。

機械学習の父と呼ばれるヤン・ルカン氏がMetaで公開しているモデルで、Hugging Face上で公開されており、利用することができます。

このモデルは動画生成の仕組みをもとに学習していますが、マルチアテンションヘッドの仕組みを使うことで物理制御などを独自に学習しています。

https://youtu.be/onXM8fRkfiI?si=6skHI5CBI3vnjUKY

自己教師あり学習の可能性

これらのモデルで期待されるのは、自己教師あり学習の発展です。モデル自身が学習をしながら、良し悪しを計算して学び続けていくことができます。

プログラミングによって良し悪しを明示的に定義することなく、物理的な世界観をコンピューターが学習することで、子供が動作を通じて物理法則を概念的に学ぶように、コンピューターがリアルタイムで最新のデータを学び、あらゆるものを学習し続けていくプロセスが実現される可能性があります。

従来のプログラミングとの違い

従来のプログラムでは、ロジックを作成し、そのロジックに合わせてキャラクターを動かすことが一般的でした。

しかし、動画生成モデルを基盤とするアプローチでは、OpenPoseなどを使ってキャラクターを動かしたり、AnimateDiffなどで時間的一貫性を担保するなど、異なる流れの工夫が必要となります。これは、ルールベースのプログラミングから、データ駆動型の学習へのパラダイムシフトを意味しています。

この書籍では、入口として、動画モデルを活用しながら、基本的な構造を学習します。その後に、リアルタイムでこうした動画を配信する手法などを学ぶことでよりシミュレーターとしての作用を学習していきます。現段階では世界モデルという仕組み自体は完成していません。そのため、世界モデルの基礎となるさまざまな要素技術などを学びながら、どのように組み合わせることで世界モデルが誕生するかなどを推測していくようにアプローチを行います。

https://youtu.be/YiVkevHuXIU?si=Wr_rYQmpDSZrOEt7

今後の展望と書籍のご紹介

フィジカルAIと世界モデルの発展により、AIは単なる情報処理システムから、物理世界を理解し、相互作用できる存在へと進化しつつあります。
この技術の進展は、ロボティクス、自動運転、製造業、さらにはエンターテインメント分野まで、幅広い産業に革新をもたらす可能性を秘めています。
この記事では、世界モデルを紹介する書籍の一部をご紹介しました。
これまでに書いた記事は本としてまとめておりますので、ぜひ下記のリンクからお読みください。 (すべての情報は無料で公開されています)
皆様の新しい発見へのお手伝いができれば、幸いです。

Beyond LLM:世界モデルが切り拓くフィジカルAIの時代
https://zenn.dev/oggata/books/69bd97b5d0ede1

Discussion