
Beyond LLM:世界モデルが切り拓くフィジカルAIの時代
フィジカルAI(Physical AI)とは、物理世界で直接行動し、環境と相互作用できるAIシステムのことです。従来の画面上で動作するAIとは異なり、ロボットや自動運転車などの物理的な実体を持ち、現実世界の複雑な状況に対応できる点が特徴です。これまでもCNNなどのコンピュータビジョン分野を中心に産業用ロボットへの応用は行われてきましたが、フィジカルAIが大きく盛り上がる転機となっているのは、Transformerの発展です。 Transformerは自然言語処理で活用されていたアーキテクチャですが、「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」との発想から、コンピュータビジョンでの活用が始まりました。ViT(Vision Transformer)と呼ばれる仕組みは、大規模データセットで事前学習するとCNNを上回る精度を達成し、この仕組みをロボット制御に活用する観点で大きく注目されています。Hugging FaceのSO-101というオープンロボットアームが5万円ほどで入手できることから、手軽にフィジカルAIを試すことができる環境も整いつつあります。 このような状況の中で必要視されているのが、世界モデル(World Foundation Model)と呼ばれるシミュレーション環境です。機械学習の父と呼ばれるヤン・ルカン氏は、フィジカルAIに圧倒的に足りていないものとして、3D認識能力を持つLLMであると指摘しています。既存のLLMは主にテキストデータを学習しているため、3D的な認識が欠けています。世界モデルは、従来の生成AIが静的なコンテンツを生成することに焦点を当てていたのに対し、動的な環境や物理法則を理解し、インタラクティブな仮想世界を生成・予測する能力を持つ革新的な技術です。 世界モデルを構築する基盤となるのは動画生成モデルです。SoraやMidjourneyといったモデルは、単に動画を生成するだけではなく、ワールドモデルとしての目的があると述べられています。近年発表されたGenieというモデルは、自由に仮想空間を歩き回れるだけでなく、将来的にはエージェントとの会話も可能になるとされています。従来のルールベースのプログラミングから、データ駆動型の学習へのパラダイムシフト、そして世界モデルの作り方の基礎を学ぶことができます。
「世界モデル(World Foundation Model)」とは何か?
世界モデル(World Model)の事例を知る
画像AIの進化を学ぶ:畳み込みからViT、そして物理世界の理解へ
GoogleColabにComfyUIをインストールする
ComfyUIワークフローから理解する動画生成
Wan2.1で動画を作ってみよう
ゲームエンジン不要、拡散モデルを使ったキャラクターコントロールの考え方
ControlNetやIP-Adapterでリファレンスを使った制御方法
V-JEPA2をGoobleColabで動作させてみる
航空写真からのセグメンテーションによるフィールド作成手法
LCMを使ってリアルタイムに対応する
プリレンダラー方式 vs リアルタイム描画方式
Solving social issues @SoftBank Group Corp…SoftwareEngineer@DeNACo.,Ltd, developping in R&D, Gaming, Blockchain, Flutter note.com/oggata/