🐥

Beyond LLM > 画像AIの進化：畳み込みからViT、そして物理世界の理解へ

2025/10/24に公開

 画像AIの進化：畳み込みからViT、そして物理世界の理解へコンピュータービジョンの歴史は、わずか数年で劇的な変化を遂げてきました。この記事では、畳み込みニューラルネットワーク（CNN）からVision Transformer（ViT）への転換、そして画像分類から画像生成、動画生成、さらには物理世界の理解まで至る技術進化の大きな流れを追っていきます。

 第1章：畳み込みの時代からViTへの転換
 畳み込みニューラルネットワーク（CNN）の支配2012年のAlexNetの成功以降、画像認識の世界は**畳み込みニューラルネットワーク（CNN）**が支配していました。
https://youtu.be/tc8RTtwvd5U?si=O3rUONBtKqOL_enk
CNNの特徴：

局所的な特徴抽出: 画像の近隣ピクセルに小さなフィルターをかけて特徴を抽出

階層的な学習: 低レベルのエッジから高レベルの概念へと段階的に学習

帰納的バイアス: 「画像の近くのピクセルは関連している」という前提を組み込んだ設計
代表的なモデル：

ResNet（2015年）: 深いネットワークを可能にする残差接続

EfficientNet（2019年）: 精度と効率のバランスを追求
CNNは画像分類、物体検出、セグメンテーションなど、あらゆる視覚タスクで標準的なアーキテクチャでした。

 Vision Transformer（ViT）の登場 - 2020年、パラダイムシフト2020年10月、Googleの研究チームが「An image is Worth 16x16 Words（1枚の画像は16×16の単語に相当する）」という論文を発表しました。これがVision Transformer（ViT）です。
https://youtu.be/vJF3TBI8esQ?si=C5F25s0jwAMQp0HM

 なぜTransformerを画像に？自然言語処理では、2017年の「Attention is All You Need」以降、Transformerが圧倒的な性能を示していました。研究者たちは重要な仮説を立てました：
「優れたアーキテクチャは、画像でも言語でも高性能を発揮できるはずだ」
この発想の転換が、画像処理の歴史を変えました。

 ViTの革新的な仕組みViTは、画像を以下のように処理します：
1. パッチ分割
画像を16×16ピクセル（または14×14など）の固定サイズパッチに分割
各パッチを「単語（トークン）」のように扱う
これが「16×16 words」の由来
2. パッチ埋め込み
各パッチを1次元ベクトルに線形変換
位置情報を追加（どのパッチがどこにあるか）
特別な[class]トークンを追加（画像全体の特徴を表現）
3. Transformer Encoder

Self-Attention機構ですべてのパッチ間の関係を学習
CNNとの決定的な違い：画像の離れた場所の情報も直接参照できる
局所的な畳み込みではなく、グローバルな文脈を捉える
4. 分類
[class]トークンの出力を多層パーセプトロンに通して分類

 ViTの成果：CNNを超えるViTは、大規模データセットで事前学習すると、CNNを上回る精度を達成しました：
ImageNet、CIFAR-10/100などのベンチマークで最高水準
事前学習のコストがCNNより低い

データが大規模になるほど性能が向上（スケーラビリティの高さ）
この成功により、「画像処理には畳み込みが必須」という常識が覆されました。
https://youtu.be/QcCJJOLCeJQ?si=A6SQdNI4eHy2GA0u

 ViTの発展：DeiT、Swin TransformerViTの成功を受けて、改良版が次々と登場しました。
DeiT（2021年、Meta）
小規模データセットでも高性能を発揮
蒸留（distillation）技術でCNNの知識を転移
Swin Transformer（2021年、Microsoft）
階層的な構造で効率化
局所的なウィンドウAttentionで計算量を削減
物体検出やセグメンテーションにも対応

 第2章：分類から生成へ - 拡散モデルとの融合ViTは「画像を理解する」ための技術でしたが、次の進化は「画像を生成する」ことでした。

 画像生成の新時代：拡散モデル2020年代初頭、**拡散モデル（Diffusion Models）**が画像生成の主流となりました。
https://youtu.be/x2GRE-RzmD8?si=3dXFmra102a6USNn
拡散モデルの仕組み：
画像に徐々にノイズを加えていく（拡散過程）
ノイズから元の画像を復元する方法を学習（逆拡散過程）
学習後、ランダムノイズから新しい画像を生成
代表例：
DALL-E 2（2022年、OpenAI）
Stable Diffusion（2022年、Stability AI）
Midjourney（2022年）
これらの初期モデルは、主にU-NetというCNN系のアーキテクチャを使用していました。

 DiT（Diffusion Transformers）- 2022年、転換点2022年、画像生成の世界にもTransformerが導入されました。それが**DiT（Diffusion Transformers）**です。
https://youtu.be/aSLDXdc2hkk?si=4JhDsv_uf7-HiQcQ

 DiTの革新性
U-NetをTransformerに置き換え：CNNの帰納的バイアスに依存しない純粋なTransformer構造

スケーラビリティ：モデルサイズを大きくするほど生成品質が向上（言語モデルと同様）

柔軟な条件付け：テキストプロンプトなどの条件を自然に組み込める
DiTは、ViTで培った「パッチベースの処理」を画像生成に応用しました：
ViTの流れ: 画像 → パッチ分割 → Transformer → 分類
DiTの流れ: ノイズパッチ → Transformer → ノイズ除去 → 画像生成

 潜在空間での生成：Latent Diffusion計算コストを下げるため、DiTは**Latent Diffusion Models（LDM）**のアプローチを採用しました：
VAE（変分オートエンコーダ）で画像を低次元の潜在空間に圧縮
潜在空間でノイズ除去（Transformer処理）
デコードして高解像度画像を生成
この技術により、高品質な画像を効率的に生成できるようになりました。

 MAE（Masked Autoencoder）- 表現学習の強化2021年、MetaのMAEは、画像生成への重要な貢献をしました。
MAEの仕組み：
画像の75%をマスク（隠す）
残り25%から隠された部分を復元
自己教師あり学習で強力な画像表現を獲得
MAEは、後の動画生成や物理理解モデルの基盤技術となります。

 第3章：静止画から動画へ - 時間軸の追加画像生成の次は、動画生成です。時間という新しい次元を加えることで、技術はさらに複雑になりました。

 動画理解の基礎技術動画生成の前に、まず「動画を理解する」技術が発展しました。
TimeSformer（2021年）
空間的Attentionと時間的Attentionを分離
効率的な動画分類を実現
ViViT（Video Vision Transformer, 2021年）
複数の時空間Attention方式を比較
動画分類で高性能を達成
VideoMAE（2022年）
MAEを動画に拡張
3次元（空間2次元 + 時間1次元）のパッチをマスクして復元
動画の時空間表現を自己教師あり学習

 初期の動画生成モデル（2022-2023年）Make-A-Video（2022年、Meta）
画像生成モデルを時間方向に拡張
テキストから短い動画を生成
Imagen Video（2022年、Google）
カスケード型拡散モデルで段階的に高解像度化
Stable Video Diffusion（2023年、Stability AI）
画像から動画を生成（Image-to-Video）
オープンソースで公開
Runway Gen-2、Pika Labs（2023年）
商用動画生成サービス
クリエイティブ産業での実用化が進む
これらのモデルは、まだ短時間・低解像度という制約がありました。

 Sora（2024年、OpenAI）- 動画生成の革命2024年2月、OpenAIはSoraを発表し、動画生成は新たな次元に到達しました。

 Soraのアーキテクチャ：Diffusion Transformer + Spacetime PatchesSoraは、DiTを動画に拡張したモデルです。核心技術は：
1. Spacetime Latent Patches（時空間潜在パッチ）
ViTが画像を2次元パッチに分割したように、Soraは動画を3次元パッチに分割：
空間2次元（縦×横）+ 時間1次元 = 3次元パッチ
「An image is worth 16×16 words」→「A video is worth millions of spacetime patches」
可変長・可変解像度・可変アスペクト比に対応
2. Video Compression Network
生動画を低次元の潜在空間に圧縮（Latent Diffusionのアプローチ）
計算コストを劇的に削減
3. Transformer Diffusion Model
DiTと同様のアーキテクチャ
テキストプロンプトを条件に、ノイズから動画を生成
すべてのspacetime patches間でAttentionを計算

 Soraの驚異的な能力長時間・高品質生成
最大1分間の動画
1080pの高解像度
滑らかで自然な動き
3D空間の一貫性
カメラワーク（パン、ズーム、追従）の理解
オブジェクトの遮蔽関係を正しく処理
視点が変わっても一貫した3D構造
複雑なシーン
複数のキャラクターやオブジェクトのアイデンティティを時間を通じて維持
複雑な相互作用の生成

 技術の系譜ViT (2020): 画像をパッチ化 → 分類
    ↓
MAE (2021): パッチをマスク → 表現学習
    ↓
DiT (2022): パッチから画像生成
    ↓
Video ViT/VideoMAE (2021-2022): 3次元パッチで動画理解
    ↓
Sora (2024): 3次元パッチから動画生成（DiT + Spacetime Patches）

 第4章：生成から理解へ - 物理世界のモデリング動画生成の次のステップは、単なる「見た目の生成」を超えて、物理世界の法則を理解することです。

 世界モデル（World Model）とは世界モデルとは、物理世界の仕組みを内部表現として持つAIモデルのことです：
単なるピクセルパターンの生成ではなく、因果関係や物理法則を理解
「こうしたら、こうなる」という予測ができる
ロボット制御、自動運転、シミュレーションなどに応用可能

 Soraの隠れた能力：暗黙的な物理理解Soraは公式に「世界モデル」とは呼ばれていませんが、生成される動画には物理法則の理解が見られます：

重力: 物体が落下する動き

衝突: オブジェクト同士がぶつかる様子

流体: 水や煙の動き

慣性: 動いているものが急には止まらない
ただし、Soraは「完璧な物理シミュレーター」ではありません：
時々物理的に不自然な動きが生成される
長期的な因果関係の追跡は限定的
意図的に物理法則を操作することは困難

 V-JEPA（2024年、Meta）- 明示的な物理理解へ2024年2月、MetaのYann LeCunらは**V-JEPA（Video Joint Embedding Predictive Architecture）**を発表しました。これは、Soraとは異なるアプローチで物理世界を理解するモデルです。
https://youtu.be/7UkJPwz_N_0?si=2VfR5GcsMQT6H-OX

 V-JEPAの核心思想Yann LeCunは「生成モデルは非効率」と主張し、代わりに埋め込み空間での予測を提案しました：
従来の生成モデル（Soraなど）:
現在のフレーム → モデル → 次のフレームの全ピクセルを生成
V-JEPAのアプローチ:
現在のフレームの表現 → モデル → 次のフレームの抽象表現を予測

 V-JEPAの仕組みhttps://youtu.be/yUmDRxV0krg?si=HZ8mUzlYFENhUCkE
1. マスク予測（MAEの応用）
動画の一部の時空間領域をマスク
マスクされていない部分から、マスクされた部分の表現を予測
ピクセルレベルではなく、抽象的な特徴空間で予測
2. Joint Embedding（共同埋め込み）
コンテキストエンコーダー：マスクされていない部分を処理
ターゲットエンコーダー：マスクされた部分の真の表現を抽出
予測器：コンテキストからターゲットの表現を予測
3. 物理的一貫性の学習
ピクセル再構成ではないため、重要な情報（動き、物理的変化）に集中
ノイズやテクスチャなどの些細な詳細は無視

因果関係や物体の動きの法則を効率的に学習

 V-JEPAの利点効率性
ピクセル生成より計算コストが大幅に低い
重要な特徴だけを予測するため学習が速い
物理理解
物体の動き、相互作用、因果関係に焦点
より明示的に「物理法則」を表現
汎用性
学習した表現は様々なタスクに転用可能
ロボット制御、行動認識、動画理解などに応用
データ効率
ラベルなしデータから自己教師あり学習
大規模ラベルデータ不要

 V-JEPAとSoraの違い

側面
Sora（生成モデル）
V-JEPA（予測モデル）


目的
視覚的にリアルな動画生成
物理的な動きの理解と予測

出力
ピクセルレベルの動画
抽象的な特徴表現

学習方法
ノイズ除去（拡散）
マスク領域の表現予測

計算コスト
非常に高い
比較的低い

物理理解
暗黙的（偶発的）
明示的（意図的）

応用
コンテンツ生成
ロボティクス、シミュレーション


 世界モデルの未来：両アプローチの統合理想的な世界モデルは、生成能力と物理理解の両方を持つべきです：
Soraの強み: 視覚的な創造性、多様な動画生成

V-JEPAの強み: 効率的な物理理解、因果推論
今後は、これらのアプローチが統合され：
物理的に正確でありながら創造的な動画生成
ロボットが物理世界を理解しながら行動計画
仮想環境のリアルタイムシミュレーション
などが実現していくでしょう。

 第5章：技術進化の全体像と今後の展望
 技術進化の大きな流れ画像AIの進化を振り返ると、明確な5つのステージが見えてきます：

 Stage 1: 畳み込みの時代（2012-2020年）

代表モデル: AlexNet、ResNet、EfficientNet

達成: 画像分類、物体検出の実用化

限界: 局所的特徴に依存、グローバルな文脈の把握が弱い

 Stage 2: ViTによるパラダイムシフト（2020-2021年）

代表モデル: ViT、DeiT、Swin Transformer

達成: CNNを超える精度、Attentionによるグローバル理解

革新: 「画像をパッチ化して言語と同じように処理」という発想

 Stage 3: 拡散モデルとの融合（2022-2023年）

代表モデル: DiT、Stable Diffusion、Midjourney

達成: 高品質な画像生成、テキストからの画像作成

革新: TransformerをU-Netに置き換え、スケーラビリティ向上

 Stage 4: 動画生成への拡張（2023-2024年）

代表モデル: Sora、Runway Gen-2、Pika

達成: 長時間・高品質な動画生成、3D一貫性

革新: Spacetime Patches、時空間Transformer

 Stage 5: 物理世界の理解（2024年〜）

代表モデル: V-JEPA、（将来の世界モデル）

達成: 明示的な物理法則の学習、効率的な予測

革新: 生成から理解へ、因果関係のモデリング

 進化を支えた3つの核心技術この急速な進化を可能にした技術は：
1. Self-Attention機構
すべての要素間の関係を直接モデリング
局所性の制約を超えたグローバル理解
2. パッチ化（Tokenization）
画像・動画を離散的な単位に分割
言語と同じ処理パイプラインで扱える
3. 大規模学習とスケーラビリティ
データとモデルサイズを増やすほど性能向上
計算資源の進化がAI進化を加速

 現在の課題技術的課題:

計算コストの高さ: 特に動画生成は膨大なGPUリソースが必要

長期的一貫性: 長時間動画での物理的・論理的一貫性の維持

細かい物理的整合性: 指の本数、オブジェクトの消失などの問題

制御性の向上: ユーザーの意図を正確に反映する難しさ

リアルタイム性: インタラクティブな応用への課題
倫理的・社会的課題:

ディープフェイク: 悪用のリスク

著作権: 学習データと生成物の権利関係

雇用への影響: クリエイティブ産業の変化

エネルギー消費: 大規模モデルの環境負荷

 今後の展望：次の10年
 短期（1-3年）: マルチモーダル統合の深化

Any-to-Any生成: テキスト、画像、動画、音声を自由に相互変換

リアルタイム動画生成: ゲーム、VR/ARでの応用

パーソナライゼーション: 個人の好みに合わせた生成

エッジデバイス化: スマートフォンでの動画生成

 中期（3-7年）: 世界モデルの実用化

物理シミュレータ: ロボティクス訓練、工学シミュレーション

自動運転: 仮想環境での走行シミュレーション

科学的発見: 物理実験の予測、新材料設計

教育: インタラクティブな学習環境

 長期（7-10年+）: 完全な世界理解

汎用世界モデル: あらゆる物理現象を理解・予測

具現化AI（Embodied AI）: 物理世界で行動するロボット

仮想世界生成: リアルタイムで創造される仮想環境

因果推論の統合: 「なぜそうなるか」まで理解するAI

 結論：「An image is worth 16×16 words」から「A world is worth infinite possibilities」へ2020年のVision Transformerから始まった旅は、わずか4年で驚異的な進化を遂げました：
畳み込み → Transformer → 拡散モデル → 動画生成 → 物理理解
この流れは、単なる技術の積み重ねではなく、AIの本質的な能力の拡張を示しています：

認識 （画像分類）

創造 （画像生成）

時間理解 （動画生成）

物理理解 （世界モデル）

因果推論 （次のフロンティア）
Vision Transformerの「画像をパッチとして処理する」というシンプルなアイデアは：
2次元から3次元へ（動画）
静的から動的へ（時間軸）
表面から本質へ（物理法則）
と次々に拡張され、今や「物理世界を理解し、予測し、シミュレートする」段階に到達しています。
**「An image is worth 16×16 words」**という2020年のキャッチフレーズは、今や：
「A world is worth infinite spacetime patches and physical laws」
という新たな地平へと進化しました。
次の10年で、AIは単なる「ツール」から、物理世界を理解し相互作用する「パートナー」へと変貌していくでしょう。その変革の起点となったVision Transformerは、AI史における真の転換点として記憶されることになるはずです。

 今後の展望と書籍のご紹介フィジカルAIと世界モデルの発展により、AIは単なる情報処理システムから、物理世界を理解し、相互作用できる存在へと進化しつつあります。

この技術の進展は、ロボティクス、自動運転、製造業、さらにはエンターテインメント分野まで、幅広い産業に革新をもたらす可能性を秘めています。

この記事では、世界モデルを紹介する書籍の一部をご紹介しました。

これまでに書いた記事は本としてまとめておりますので、ぜひ下記のリンクからお読みください。 （すべての情報は無料で公開されています）

皆様の新しい発見へのお手伝いができれば、幸いです。
Beyond LLM：世界モデルが切り拓くフィジカルAIの時代

https://zenn.dev/oggata/books/69bd97b5d0ede1

側面	Sora（生成モデル）	V-JEPA（予測モデル）
目的	視覚的にリアルな動画生成	物理的な動きの理解と予測
出力	ピクセルレベルの動画	抽象的な特徴表現
学習方法	ノイズ除去（拡散）	マスク領域の表現予測
計算コスト	非常に高い	比較的低い
物理理解	暗黙的（偶発的）	明示的（意図的）
応用	コンテンツ生成	ロボティクス、シミュレーション

画像AIの進化：畳み込みからViT、そして物理世界の理解へ

第1章：畳み込みの時代からViTへの転換

畳み込みニューラルネットワーク（CNN）の支配

Vision Transformer（ViT）の登場 - 2020年、パラダイムシフト

なぜTransformerを画像に？

ViTの革新的な仕組み

ViTの成果：CNNを超える

ViTの発展：DeiT、Swin Transformer

第2章：分類から生成へ - 拡散モデルとの融合

画像生成の新時代：拡散モデル

DiT（Diffusion Transformers）- 2022年、転換点

DiTの革新性

潜在空間での生成：Latent Diffusion

MAE（Masked Autoencoder）- 表現学習の強化

第3章：静止画から動画へ - 時間軸の追加

動画理解の基礎技術

初期の動画生成モデル（2022-2023年）

Sora（2024年、OpenAI）- 動画生成の革命

Soraのアーキテクチャ：Diffusion Transformer + Spacetime Patches

Soraの驚異的な能力

技術の系譜

第4章：生成から理解へ - 物理世界のモデリング

世界モデル（World Model）とは

Soraの隠れた能力：暗黙的な物理理解

V-JEPA（2024年、Meta）- 明示的な物理理解へ

V-JEPAの核心思想

V-JEPAの仕組み

V-JEPAの利点

V-JEPAとSoraの違い

世界モデルの未来：両アプローチの統合

第5章：技術進化の全体像と今後の展望

技術進化の大きな流れ

Stage 1: 畳み込みの時代（2012-2020年）

Stage 2: ViTによるパラダイムシフト（2020-2021年）

Stage 3: 拡散モデルとの融合（2022-2023年）

Stage 4: 動画生成への拡張（2023-2024年）

Stage 5: 物理世界の理解（2024年〜）

進化を支えた3つの核心技術

現在の課題

今後の展望：次の10年

短期（1-3年）: マルチモーダル統合の深化

中期（3-7年）: 世界モデルの実用化

長期（7-10年+）: 完全な世界理解

結論：「An image is worth 16×16 words」から「A world is worth infinite possibilities」へ

今後の展望と書籍のご紹介

Discussion