Beyond LLM：世界モデルが切り拓くフィジカルAIの時代

無料で読める本

フィジカルAI(Physical AI)とは、物理世界で直接行動し、環境と相互作用できるAIシステムのことです。従来の画面上で動作するAIとは異なり、ロボットや自動運転車などの物理的な実体を持ち、現実世界の複雑な状況に対応できる点が特徴です。これまでもCNNなどのコンピュータビジョン分野を中心に産業用ロボットへの応用は行われてきましたが、フィジカルAIが大きく盛り上がる転機となっているのは、Transformerの発展です。 Transformerは自然言語処理で活用されていたアーキテクチャですが、「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との発想から、コンピュータビジョンでの活用が始まりました。ViT(Vision Transformer)と呼ばれる仕組みは、大規模データセットで事前学習するとCNNを上回る精度を達成し、この仕組みをロボット制御に活用する観点で大きく注目されています。Hugging FaceのSO-101というオープンロボットアームが5万円ほどで入手できることから、手軽にフィジカルAIを試すことができる環境も整いつつあります。このような状況の中で必要視されているのが、世界モデル(World Foundation Model)と呼ばれるシミュレーション環境です。機械学習の父と呼ばれるヤン・ルカン氏は、フィジカルAIに圧倒的に足りていないものとして、3D認識能力を持つLLMであると指摘しています。既存のLLMは主にテキストデータを学習しているため、3D的な認識が欠けています。世界モデルは、従来の生成AIが静的なコンテンツを生成することに焦点を当てていたのに対し、動的な環境や物理法則を理解し、インタラクティブな仮想世界を生成・予測する能力を持つ革新的な技術です。世界モデルを構築する基盤となるのは動画生成モデルです。SoraやMidjourneyといったモデルは、単に動画を生成するだけではなく、ワールドモデルとしての目的があると述べられています。近年発表されたGenieというモデルは、自由に仮想空間を歩き回れるだけでなく、将来的にはエージェントとの会話も可能になるとされています。従来のルールベースのプログラミングから、データ駆動型の学習へのパラダイムシフト、そして世界モデルの作り方の基礎を学ぶことができます。

Chapters

Chapter 01