Qwen3-VL アーキテクチャ調査報告
――視覚的認識から認知的推論へのパラダイムシフト
1. 序論:マルチモーダル AI は「見る」から「考えて動く」へ
2025 年後半、マルチモーダル AI(Vision Language Model; VLM)は、
「画像とテキストを対応づけて説明するモデル」から、
- 画像・動画・UI を 理解 し
- その上で論理的に 推論 し
- さらに環境に 作用する(エージェントとして振る舞う)
という段階へと急速に移行している。
Alibaba Cloud の Qwen チームが公開した Qwen3-VL シリーズは、
この流れを象徴する「次世代マルチモーダル基盤モデル」である。
前世代の Qwen2-VL / Qwen2.5-VL を継承しつつも、Qwen3-VL では
- 単にパラメータを増やしただけではなく
- 視覚・言語の融合メカニズムを 根本から再設計
しており、そのコアはまさに
「見て理解する(Perception)」から
「見て考え、行動する(Cognition & Action)」へ
というパラダイムシフトにある。
本稿では、特に 画像キャプション生成タスク を軸にしながら、
- 視覚エンコーダ(ViT / SigLIP 系)
- 言語デコーダ(Qwen3 LLM)
- 視覚と言語を結ぶ DeepStack ベースのクロスモーダル結合
- 長コンテキスト・動画理解を支える Interleaved-MRoPE / Text–Timestamp Alignment
- それらを支える 3 ステージ学習戦略
を整理した。
2. システム全体構成:Dense × MoE × Instruct × Thinking
2.1 モデルラインナップとスケーラビリティ
Qwen3-VL は、用途と計算コストに応じて選べる モデルファミリー として設計されている。
大きく以下の 2 系統に分かれる。
-
Dense(高密度)モデル
- 2B / 4B / 8B / 32B など
- 単一の Transformer をフルに使うオーソドックスな構成
- 単一 GPU やコンシューマ GPU でも扱いやすい
-
MoE(Mixture-of-Experts)モデル
- 例:30B-A3B, 235B-A22B など
- 総パラメータは数百〜数千億だが、
推論時に アクティブになるのは一部のエキスパートのみ(20B クラスの計算量)
これに加えて、用途別に
-
Instruct / Chat モデル
- 指示追従・対話向け
-
Thinking モデル
-
<think>トークンを用いた「推論時計算」強化版 - o1 系の System 2 的な思考プロセスをマルチモーダルに拡張したもの
-
が用意されている。
2.2 MoE による「巨大だが軽い」アーキテクチャ
MoE 版では、たとえば 235B-A22B モデルの場合:
- 総パラメータ:約 2,350 億
- 推論時にアクティブなパラメータ:約 20 億〜数十億(20B クラス)
という構成になっており、各トークンごとにルーターが
- OCR に強いエキスパート
- 自然画像に強いエキスパート
- 数式・グラフに強いエキスパート
などを 動的に選択 する。
これにより、
- 表現容量(Capacity)は巨大なまま
- 計算コストは 20B クラスに抑制
という、「巨大だけど軽い」モデルを実現している。
長尺動画キャプションや GUI 操作といった重いマルチモーダルタスクでも、
現実的なレイテンシで動作させるための鍵となる設計である。
3. 視覚エンコーダ(Vision Encoder):ViT × 高解像度 × SigLIP 系
3.1 ViT ベースのバックボーン
Qwen3-VL の視覚エンコーダは、Vision Transformer(ViT)系バックボーン を採用している。
- 前世代の Qwen2-VL では OpenCLIP 系の ViT-bigG/14 などを利用
- 入力画像を 14×14 画素程度のパッチに分割
- 各パッチを埋め込みベクトルに変換し、系列として Transformer に入力
これにより、画像全体が「パッチトークン列」として表現され、
後段の LLM と自然に結合できる。
Qwen3-VL ではこの系譜を受け継ぎつつ、
SigLIP / SigLIP2 系の事前学習済みエンコーダ を採用する構成が主流になっている。
3.2 高解像度・可変解像度対応
従来の CLIP 系モデルでは、画像を 224×224 など固定サイズにリサイズして入力するのが一般的だった。
しかしこの方法では、
- 縦長スマートフォン UI スクリーンショット
- パノラマ画像
- 複雑な図表・ドキュメント
などで 細部情報が失われやすい という問題があった。
Qwen シリーズ(Qwen2-VL → Qwen3-VL)では、
- 画像のアスペクト比を維持したまま可変解像度で入力を処理
- 解像度が大きい場合はタイル分割やパッチ・アンシャッフルでトークン数を制御
- パッチサイズ・トークン数を 動的に決定
することで、
- 高解像度画像でも細部を保持しつつ
- コンテキスト長を食い潰さない
設計になっている。
3.3 動画に対する動的フレームサンプリング
動画処理では、静止画の単純延長ではなく、時間軸への適応 も行われる。
- 変化の少ないシーンではサンプリングレートを下げて冗長フレームを間引く
- アクションや画面切り替えが激しいシーンではサンプリングレートを上げる
といった 動的 FPS サンプリング により、
- 重要なイベントを見逃さず
- 不要なフレームによるトークン浪費を抑える
ことで、長時間動画でも 256k トークン級のコンテキスト内に収めながら処理する。
4. 言語デコーダ(Language Model):Qwen3 LLM バックボーン
4.1 Qwen3 テキストモデルの特徴
テキスト側は、同時期にリリースされた Qwen3 LLM がバックボーンとなる。
- GPT 系に類似した Decoder-only Transformer
- 36T トークン規模の大規模事前学習
- 100 以上の言語をカバーする多言語対応
- Grouped Query Attention (GQA) などの高速化手法を採用
この Qwen3 をベースとして、
- マルチモーダル入力(画像・動画・テキストの交互入力)
- 長大コンテキスト(最大 256k〜1M トークン級)
に対応できるよう拡張したものが Qwen3-VL のテキストデコーダである。
4.2 役割:キャプション生成から高度推論まで
言語モデルの役割は、
- 視覚エンコーダから渡される視覚トークン列と
- ユーザからのテキスト指示
を入力として受け取り、
- 画像・動画内容の記述(キャプション)
- 質問への回答文(VQA)
- さらには思考過程テキスト(Thinking モード)
を生成することにある。
多言語での事前学習により、
- 英語・中国語はもちろん
- それ以外の言語でも画像説明が可能
であり、テキスト単独タスクでも高い性能を発揮する。
Thinking モードでは <think> トークンを用いて内部思考を明示化し、
- 画像・動画の一部を何度も参照しながら
- ステップバイステップで推論を展開する
といった「推論時計算」を実現する。
5. クロスモーダル結合と DeepStack アーキテクチャ
Qwen3-VL の最大の差別化要因が、
視覚と言語を結合する DeepStack アーキテクチャ である。
5.1 従来方式:浅い結合による「詳細情報の消失」
Qwen2-VL を含む従来の多くの VLM では、概ね次のような構成だった。
-
視覚特徴の圧縮(アダプタ / Q-Former 型)
- ViT 出力はパッチ数が多く(数百〜千トークン)そのままでは長すぎる
- BLIP-2 の Q-Former に似た単層クロスアテンションを用いる
- 学習可能クエリ(例:256 個)をキー・バリュー=ViT 出力に対してクロスアテンション
→ 固定長の視覚トークン列(例:256 トークン)に圧縮
-
LLM への連結
- 圧縮後の視覚トークン列を LLM 入力の先頭に挿入
- その後は純テキストと同じようにデコーダ層を順に通過(浅い融合)
この方式では、LLM の層が深くなるにつれ、
入力層で与えた視覚情報が 言語的抽象化の中で徐々に希釈される。
結果として、
- 「これは犬の画像です」といった全体カテゴリは分かるが、
- 小さな文字(OCR)や局所的な記号・UI パーツなど 細部が抜け落ちやすい
という「詳細情報の消失」問題があった。
5.2 DeepStack:複数層の ViT 特徴を LLM 全体に注入
Qwen3-VL で導入された DeepStack は、
この問題を根本から解決するための設計である。
- ViT の 複数層(浅い層〜深い層)からマルチレベル特徴を抽出
- それらを LLM の 複数層(対応する深さ)に対応づけて注入
という形で、「階層構造を保ったまま視覚情報を言語側に流す」。
具体的には:
- ViT の浅い層 → エッジ・テクスチャ・ローカル形状などの低レベル特徴
- ViT の深い層 → 物体カテゴリ・セマンティック情報などの高レベル特徴
を担っており、これを
- LLM の浅い層には浅い特徴
- LLM の深い層には深い特徴
というふうにマッピングする。
U-Net のスキップ接続を VLM に一般化したようなイメージである。
さらに、注入前の視覚トークンに対して
- 2×2 のトークンマージ(4 パッチ → 1 トークン)を行うことで
- トークン数を 1/4 に圧縮しながら情報密度を高める
これにより、高解像度画像でも計算量を爆発させずに
深い層まで視覚情報を届けることができる。
5.3 DeepStack の効果
DeepStack によって、Qwen3-VL は次のような性能向上を得る。
-
OCR・微細構造の認識向上
- 小さな文字、看板、ボタンラベル、グラフの数値などを精度良く読める
-
ハルシネーション(幻覚)の抑制
- 最終層近くまで視覚情報にアクセスできるため、
「画像に存在しないものを語る」ケースが大幅に減る
- 最終層近くまで視覚情報にアクセスできるため、
-
視覚と言語のアライメント向上
- LLM の各層で視覚情報が参照され続けることで、
画像内容とテキスト生成の乖離が小さくなる
- LLM の各層で視覚情報が参照され続けることで、
その結果、Qwen3-VL は従来モデルに比べ、
- 詳細かつ具体的で
- 文脈に整合的な
- 高度な推論を含んだキャプション
を生成できる。
6. 長大コンテキストと位置表現:Interleaved-MRoPE & Text–Timestamp Alignment
Qwen3-VL は、テキストと画像/動画がインターリーブした入力を
最大 256k トークン級 まで処理できる。
これを支える鍵となるのが、
- Interleaved-MRoPE(Multimodal Rotary Position Embedding)
- Text–Timestamp Alignment(テキスト・タイムスタンプ整合)
である。
6.1 MRoPE から Interleaved-MRoPE へ
RoPE(Rotary Position Embedding)は、
- トークン位置に応じてベクトルに回転変換を与える
- 周期性により長いシーケンスでも位置情報を埋め込める
という位置埋め込み手法である。
Qwen2-VL の MRoPE ではこれを
- テキストの一次元位置
- 画像の高さ・幅(2D)
- 動画の時間(フレーム軸)
にまで拡張していたが、
ベクトル次元を「時間」「高さ」「幅」でブロック分割していたため、
周波数帯が軸ごとに偏る問題があった。
Qwen3-VL の Interleaved-MRoPE では、
- ベクトル次元を t / h / w / l(テキスト)などに 交互(インターリーブ)に割当て
- すべての軸が低周波〜高周波まで均等に利用できるようにする
ことで、長尺動画や高解像度画像でも
位置情報が過度に劣化しないようにしている。
6.2 Text–Timestamp Alignment による時間的認知
動画理解では、「いつ何が起きたか」 を特定することが重要になる。
Qwen3-VL では、動画フレーム列とともに
- 対応するタイムスタンプ(例:秒数や hh:mm:ss 形式)を
- 明示的なテキストトークンとしてシーケンス中に挿入
し、モデルが
- 視覚的変化(例:爆発、ゴール、人物の登場)と
- タイムスタンプトークン
をセットで学習するよう設計されている。
これにより、
- 「爆発シーンは 01:23:45 頃です」
- 「ゴールは前半 44 分 10 秒です」
のように、時間情報つきのキャプション を生成可能となる。
動画ハイライト生成、防犯カメラ解析、スポーツ解析などで特に有用である。
7. インターフェース設計:特殊トークンとマルチモーダル入力
Qwen3-VL は、モデルの入出力インターフェースレベルでも
マルチモーダル処理を自然に扱えるよう設計されている。
7.1 画像・バウンディングボックス・参照用トークン
代表的な特殊トークンの例:
-
<img> ... </img>
画像の開始・終了を明示するトークン -
<box> ... </box>
画像中の矩形領域を指定するトークン -
<ref> ... </ref>
ある領域・オブジェクトを後から参照するためのトークン
学習時には、
- 「この赤枠の中の物体について説明して」
- 「左側の人物と右側の人物を比較して」
などのタスクを含むデータを用いることで、
これらのトークンの意味・使い方をモデルに学習させている。
7.2 テキストと画像のインターリーブ
Qwen3-VL は、
- テキスト → 画像 → テキスト → 画像 … と交互に入るチャットログ
- テキスト中に図版(画像)が埋め込まれた技術レポート
などをそのまま入力できる。
これにより、
- 単一画像キャプションだけでなく
- 複数画像の比較
- 画像をまたぎながらの議論
といった高度なマルチモーダル対話が可能になる。
8. 学習戦略:3 ステージの段階的学習プロセス
Qwen3-VL は、以下の 3 段階の学習プロセスを通じて能力を獲得する。
- Stage1:大規模事前学習(画像+テキストペア)
- Stage2:マルチタスク視覚言語学習
- Stage3:監督微調整(Instruct / Chat 特化)
8.1 Stage1:マルチモーダル事前学習
- データソースの例:
- LAION-5B の英語・中国語サブセット
- DataComp, COYO
- CC12M/CC3M, SBU
- COCO キャプション など
- 規模:
- クリーニング後でも 十数億ペア級 の画像テキストペア
この段階では、
- 言語モデルを部分的に凍結し
- 視覚エンコーダと VL アダプタを主に最適化
しながら、次トークン予測(クロスエントロピー)で
- 画像とテキストの 基本アライメント
- キャプションの「常識」
をインストールする。
8.2 Stage2:マルチタスク視覚言語学習
次に、より高品質なアノテーション付きデータで
複数タスクを混在させた マルチタスク学習 を行う。
代表的タスク:
- 画像キャプション
– 与えられた画像の内容を自然言語で記述 - VQA(Visual Question Answering)
– 画像を見て質問に答える - 視覚グラウンディング(RefCOCO 系など)
– テキストによる指示に対応する画像内領域を理解 - OCR / テキスト読み取り
– ドキュメント・シーンテキスト画像から文字列を抽出 - 純テキスト言語モデリング
– LLM の基本言語能力を維持・強化
この段階では、
- 入力解像度を向上(Stage1 より高解像度)
- 入力長を拡張(画像+長文テキストを 2k トークン以上に)
- モデル全体(ViT + VL アダプタ + LLM)を微調整
することで、汎用的な視覚と言語の融合表現 を獲得する。
8.3 Stage3:監督微調整(Instruct / Chat 化)
最後に、対話形式のデータで
- ユーザ指示に従う
- 丁寧かつ安全な応答を返す
- マルチターンの文脈を維持する
といった振る舞いを学習させる。
特徴:
- 視覚エンコーダ側は基本的に凍結
- 言語モデル+アダプタを中心に更新
- マルチモーダル対話(画像付きチャット)と
テキストのみの対話データを混ぜて学習
これにより、Qwen3-VL-Chat / Instruct のような
対話アシスタントとして使えるモデルが得られる。
9. 他のマルチモーダルモデルとの比較
9.1 BLIP-2(Salesforce)との比較
共通点
- ViT(多くは CLIP 事前学習済み)+ LLM
- 学習可能クエリ+クロスアテンションによる視覚特徴圧縮(Q-Former 型)
相違点
- Qwen3-VL は DeepStack により、複数層の ViT 特徴を LLM の複数層に統合
- 視覚エンコーダ自体も高解像度・多言語対応に微調整
- データ規模・モデル規模が BLIP-2 より大きく、
細部認識や高度な推論に強い
9.2 Flamingo(DeepMind)との比較
- Flamingo は、言語層の途中にクロスアテンションを挿入する
Perceiver Resampler により高性能を示したがクローズドモデル。 - Qwen3-VL は同様の思想を DeepStack としてオープンソースで実装し、
GitHub / Hugging Face でコードとモデルを公開。
研究コミュニティにとって、アーキテクチャ設計を 追体験・再利用できる 点が大きな価値。
9.3 LLaVA / MiniGPT-4 系との比較
- これらは CLIP ViT 出力を線形層で LLM 埋め込みに写像し、
数十万ペア程度のデータで軽量に学習したモデル群。 - シンプルかつ実装容易だが、視覚エンコーダを凍結して少量データで調整するため
認識精度や多様な視覚タスクへの汎用性に限界がある。
Qwen3-VL は
- DeepStack + Interleaved-MRoPE + 大規模学習
- Qwen3 LLM という強力なバックボーン
によって、画像キャプション・VQA 等のベンチマークで
LLaVA 系を大きく上回る性能を示す。
9.4 GPT-4V / Gemini との比較
- GPT-4V / Gemini はクローズドな巨大モデルで、
アーキテクチャやデータセットは非公開。 - 一方、Qwen3-VL はオープンウェイトとして公開され、
MoE による高効率化により、
「巨大モデル級の性能」と「扱いやすさ」を両立しようとしている。
10. 実運用・エコシステム
10.1 GitHub / Hugging Face 上での提供
Qwen3-VL は以下の形で公開されている。
- GitHub:モデル実装・推論スクリプト・デモノートブック
- Hugging Face:
Qwen/Qwen3-VL-4B-Instructなどの名前でモデルカードが公開されており、
AutoModel.from_pretrained(...)で簡単にロード可能 - ライセンス:Apache 2.0 など商用利用可能な条件
Dense 版(2B/4B/8B/32B)から MoE 版(30B/235B)まで
用途に応じて選択できる。
10.2 クラウドデモ・API
Alibaba Cloud / DashScope / ModelScope 等で
- 画像理解 API
- マルチモーダルチャットボット
として利用できるデモ・エンドポイントが提供されている。
これにより、研究用途だけでなく、
- 画像キャプションサービス
- ドキュメント理解・要約
- 動画ハイライト生成
- 視覚エージェント(GUI 操作)
などへの実サービス統合も視野に入る。
11. まとめ:画像キャプションからエージェントまで
本稿では、
- 「視覚的認識から認知的推論へのパラダイムシフト」を強調した解説
- 「Qwen3-VL(画像キャプション生成向けマルチモーダルモデル)のアーキ調査」
の 2 つの視点を統合しつつ、Qwen3-VL のアーキテクチャを整理した。
キーポイントは以下の通りである。
-
DeepStack による視覚と言語の深層融合
– ViT の複数層の特徴を LLM の複数層へ階層的に注入し、
細部情報を維持しつつ高精度キャプションと推論を実現。 -
Interleaved-MRoPE & Text–Timestamp Alignment による時空間理解
– テキスト+画像+動画をインターリーブした長大コンテキストを扱い、
動画内イベントを時間付きで正確に説明可能。 -
Dense / MoE × Instruct / Thinking のハイブリッドラインナップ
– エッジ〜クラウドまでスケーラブルな構成で、
軽量な画像キャプションから重い科学図表推論・GUI 操作までカバー。 -
3 ステージ学習による汎用性と指示追従性
– Web スケール事前学習 → マルチタスク訓練 → Instruct 微調整というプロセスにより、
単なる「描写」にとどまらず、ユーザ意図に沿った推論込みの説明を生成可能。
結果として Qwen3-VL は、
- 画像キャプション生成タスクにおいて
「正確で詳細・文脈豊かな説明」を生成できるだけでなく、 - GUI 操作エージェントや動画理解エージェントなど、
より広義の「視覚的知性」の基盤としても機能する
次世代マルチモーダルモデルと言える。
Discussion