📑

Qwen3-VL アーキテクチャ調査報告

に公開

――視覚的認識から認知的推論へのパラダイムシフト


1. 序論:マルチモーダル AI は「見る」から「考えて動く」へ

2025 年後半、マルチモーダル AI(Vision Language Model; VLM)は、
「画像とテキストを対応づけて説明するモデル」から、

  • 画像・動画・UI を 理解
  • その上で論理的に 推論
  • さらに環境に 作用する(エージェントとして振る舞う)

という段階へと急速に移行している。

Alibaba Cloud の Qwen チームが公開した Qwen3-VL シリーズは、
この流れを象徴する「次世代マルチモーダル基盤モデル」である。

前世代の Qwen2-VL / Qwen2.5-VL を継承しつつも、Qwen3-VL では

  • 単にパラメータを増やしただけではなく
  • 視覚・言語の融合メカニズムを 根本から再設計

しており、そのコアはまさに

「見て理解する(Perception)」から
「見て考え、行動する(Cognition & Action)」へ

というパラダイムシフトにある。

本稿では、特に 画像キャプション生成タスク を軸にしながら、

  • 視覚エンコーダ(ViT / SigLIP 系)
  • 言語デコーダ(Qwen3 LLM)
  • 視覚と言語を結ぶ DeepStack ベースのクロスモーダル結合
  • 長コンテキスト・動画理解を支える Interleaved-MRoPE / Text–Timestamp Alignment
  • それらを支える 3 ステージ学習戦略

を整理した。


2. システム全体構成:Dense × MoE × Instruct × Thinking

2.1 モデルラインナップとスケーラビリティ

Qwen3-VL は、用途と計算コストに応じて選べる モデルファミリー として設計されている。
大きく以下の 2 系統に分かれる。

  • Dense(高密度)モデル

    • 2B / 4B / 8B / 32B など
    • 単一の Transformer をフルに使うオーソドックスな構成
    • 単一 GPU やコンシューマ GPU でも扱いやすい
  • MoE(Mixture-of-Experts)モデル

    • 例:30B-A3B, 235B-A22B など
    • 総パラメータは数百〜数千億だが、
      推論時に アクティブになるのは一部のエキスパートのみ(20B クラスの計算量)

これに加えて、用途別に

  • Instruct / Chat モデル
    • 指示追従・対話向け
  • Thinking モデル
    • <think> トークンを用いた「推論時計算」強化版
    • o1 系の System 2 的な思考プロセスをマルチモーダルに拡張したもの

が用意されている。

2.2 MoE による「巨大だが軽い」アーキテクチャ

MoE 版では、たとえば 235B-A22B モデルの場合:

  • 総パラメータ:約 2,350 億
  • 推論時にアクティブなパラメータ:約 20 億〜数十億(20B クラス)

という構成になっており、各トークンごとにルーターが

  • OCR に強いエキスパート
  • 自然画像に強いエキスパート
  • 数式・グラフに強いエキスパート

などを 動的に選択 する。

これにより、

  • 表現容量(Capacity)は巨大なまま
  • 計算コストは 20B クラスに抑制

という、「巨大だけど軽い」モデルを実現している。

長尺動画キャプションや GUI 操作といった重いマルチモーダルタスクでも、
現実的なレイテンシで動作させるための鍵となる設計である。


3. 視覚エンコーダ(Vision Encoder):ViT × 高解像度 × SigLIP 系

3.1 ViT ベースのバックボーン

Qwen3-VL の視覚エンコーダは、Vision Transformer(ViT)系バックボーン を採用している。

  • 前世代の Qwen2-VL では OpenCLIP 系の ViT-bigG/14 などを利用
  • 入力画像を 14×14 画素程度のパッチに分割
  • 各パッチを埋め込みベクトルに変換し、系列として Transformer に入力

これにより、画像全体が「パッチトークン列」として表現され、
後段の LLM と自然に結合できる。

Qwen3-VL ではこの系譜を受け継ぎつつ、
SigLIP / SigLIP2 系の事前学習済みエンコーダ を採用する構成が主流になっている。

3.2 高解像度・可変解像度対応

従来の CLIP 系モデルでは、画像を 224×224 など固定サイズにリサイズして入力するのが一般的だった。
しかしこの方法では、

  • 縦長スマートフォン UI スクリーンショット
  • パノラマ画像
  • 複雑な図表・ドキュメント

などで 細部情報が失われやすい という問題があった。

Qwen シリーズ(Qwen2-VL → Qwen3-VL)では、

  • 画像のアスペクト比を維持したまま可変解像度で入力を処理
  • 解像度が大きい場合はタイル分割やパッチ・アンシャッフルでトークン数を制御
  • パッチサイズ・トークン数を 動的に決定

することで、

  • 高解像度画像でも細部を保持しつつ
  • コンテキスト長を食い潰さない

設計になっている。

3.3 動画に対する動的フレームサンプリング

動画処理では、静止画の単純延長ではなく、時間軸への適応 も行われる。

  • 変化の少ないシーンではサンプリングレートを下げて冗長フレームを間引く
  • アクションや画面切り替えが激しいシーンではサンプリングレートを上げる

といった 動的 FPS サンプリング により、

  • 重要なイベントを見逃さず
  • 不要なフレームによるトークン浪費を抑える

ことで、長時間動画でも 256k トークン級のコンテキスト内に収めながら処理する。


4. 言語デコーダ(Language Model):Qwen3 LLM バックボーン

4.1 Qwen3 テキストモデルの特徴

テキスト側は、同時期にリリースされた Qwen3 LLM がバックボーンとなる。

  • GPT 系に類似した Decoder-only Transformer
  • 36T トークン規模の大規模事前学習
  • 100 以上の言語をカバーする多言語対応
  • Grouped Query Attention (GQA) などの高速化手法を採用

この Qwen3 をベースとして、

  • マルチモーダル入力(画像・動画・テキストの交互入力)
  • 長大コンテキスト(最大 256k〜1M トークン級)

に対応できるよう拡張したものが Qwen3-VL のテキストデコーダである。

4.2 役割:キャプション生成から高度推論まで

言語モデルの役割は、

  • 視覚エンコーダから渡される視覚トークン列と
  • ユーザからのテキスト指示

を入力として受け取り、

  • 画像・動画内容の記述(キャプション)
  • 質問への回答文(VQA)
  • さらには思考過程テキスト(Thinking モード)

を生成することにある。

多言語での事前学習により、

  • 英語・中国語はもちろん
  • それ以外の言語でも画像説明が可能

であり、テキスト単独タスクでも高い性能を発揮する。

Thinking モードでは <think> トークンを用いて内部思考を明示化し、

  • 画像・動画の一部を何度も参照しながら
  • ステップバイステップで推論を展開する

といった「推論時計算」を実現する。


5. クロスモーダル結合と DeepStack アーキテクチャ

Qwen3-VL の最大の差別化要因が、
視覚と言語を結合する DeepStack アーキテクチャ である。

5.1 従来方式:浅い結合による「詳細情報の消失」

Qwen2-VL を含む従来の多くの VLM では、概ね次のような構成だった。

  1. 視覚特徴の圧縮(アダプタ / Q-Former 型)

    • ViT 出力はパッチ数が多く(数百〜千トークン)そのままでは長すぎる
    • BLIP-2 の Q-Former に似た単層クロスアテンションを用いる
    • 学習可能クエリ(例:256 個)をキー・バリュー=ViT 出力に対してクロスアテンション
      → 固定長の視覚トークン列(例:256 トークン)に圧縮
  2. LLM への連結

    • 圧縮後の視覚トークン列を LLM 入力の先頭に挿入
    • その後は純テキストと同じようにデコーダ層を順に通過(浅い融合)

この方式では、LLM の層が深くなるにつれ、
入力層で与えた視覚情報が 言語的抽象化の中で徐々に希釈される

結果として、

  • 「これは犬の画像です」といった全体カテゴリは分かるが、
  • 小さな文字(OCR)や局所的な記号・UI パーツなど 細部が抜け落ちやすい

という「詳細情報の消失」問題があった。

5.2 DeepStack:複数層の ViT 特徴を LLM 全体に注入

Qwen3-VL で導入された DeepStack は、
この問題を根本から解決するための設計である。

  • ViT の 複数層(浅い層〜深い層)からマルチレベル特徴を抽出
  • それらを LLM の 複数層(対応する深さ)に対応づけて注入

という形で、「階層構造を保ったまま視覚情報を言語側に流す」。

具体的には:

  • ViT の浅い層 → エッジ・テクスチャ・ローカル形状などの低レベル特徴
  • ViT の深い層 → 物体カテゴリ・セマンティック情報などの高レベル特徴

を担っており、これを

  • LLM の浅い層には浅い特徴
  • LLM の深い層には深い特徴

というふうにマッピングする。
U-Net のスキップ接続を VLM に一般化したようなイメージである。

さらに、注入前の視覚トークンに対して

  • 2×2 のトークンマージ(4 パッチ → 1 トークン)を行うことで
  • トークン数を 1/4 に圧縮しながら情報密度を高める

これにより、高解像度画像でも計算量を爆発させずに
深い層まで視覚情報を届けることができる。

5.3 DeepStack の効果

DeepStack によって、Qwen3-VL は次のような性能向上を得る。

  • OCR・微細構造の認識向上
    • 小さな文字、看板、ボタンラベル、グラフの数値などを精度良く読める
  • ハルシネーション(幻覚)の抑制
    • 最終層近くまで視覚情報にアクセスできるため、
      「画像に存在しないものを語る」ケースが大幅に減る
  • 視覚と言語のアライメント向上
    • LLM の各層で視覚情報が参照され続けることで、
      画像内容とテキスト生成の乖離が小さくなる

その結果、Qwen3-VL は従来モデルに比べ、

  • 詳細かつ具体的で
  • 文脈に整合的な
  • 高度な推論を含んだキャプション

を生成できる。


6. 長大コンテキストと位置表現:Interleaved-MRoPE & Text–Timestamp Alignment

Qwen3-VL は、テキストと画像/動画がインターリーブした入力を
最大 256k トークン級 まで処理できる。

これを支える鍵となるのが、

  • Interleaved-MRoPE(Multimodal Rotary Position Embedding)
  • Text–Timestamp Alignment(テキスト・タイムスタンプ整合)

である。

6.1 MRoPE から Interleaved-MRoPE へ

RoPE(Rotary Position Embedding)は、

  • トークン位置に応じてベクトルに回転変換を与える
  • 周期性により長いシーケンスでも位置情報を埋め込める

という位置埋め込み手法である。

Qwen2-VL の MRoPE ではこれを

  • テキストの一次元位置
  • 画像の高さ・幅(2D)
  • 動画の時間(フレーム軸)

にまで拡張していたが、
ベクトル次元を「時間」「高さ」「幅」でブロック分割していたため、
周波数帯が軸ごとに偏る問題があった。

Qwen3-VL の Interleaved-MRoPE では、

  • ベクトル次元を t / h / w / l(テキスト)などに 交互(インターリーブ)に割当て
  • すべての軸が低周波〜高周波まで均等に利用できるようにする

ことで、長尺動画や高解像度画像でも
位置情報が過度に劣化しないようにしている。

6.2 Text–Timestamp Alignment による時間的認知

動画理解では、「いつ何が起きたか」 を特定することが重要になる。

Qwen3-VL では、動画フレーム列とともに

  • 対応するタイムスタンプ(例:秒数や hh:mm:ss 形式)を
  • 明示的なテキストトークンとしてシーケンス中に挿入

し、モデルが

  • 視覚的変化(例:爆発、ゴール、人物の登場)と
  • タイムスタンプトークン

をセットで学習するよう設計されている。

これにより、

  • 「爆発シーンは 01:23:45 頃です」
  • 「ゴールは前半 44 分 10 秒です」

のように、時間情報つきのキャプション を生成可能となる。
動画ハイライト生成、防犯カメラ解析、スポーツ解析などで特に有用である。


7. インターフェース設計:特殊トークンとマルチモーダル入力

Qwen3-VL は、モデルの入出力インターフェースレベルでも
マルチモーダル処理を自然に扱えるよう設計されている。

7.1 画像・バウンディングボックス・参照用トークン

代表的な特殊トークンの例:

  • <img> ... </img>
    画像の開始・終了を明示するトークン
  • <box> ... </box>
    画像中の矩形領域を指定するトークン
  • <ref> ... </ref>
    ある領域・オブジェクトを後から参照するためのトークン

学習時には、

  • 「この赤枠の中の物体について説明して」
  • 「左側の人物と右側の人物を比較して」

などのタスクを含むデータを用いることで、
これらのトークンの意味・使い方をモデルに学習させている。

7.2 テキストと画像のインターリーブ

Qwen3-VL は、

  • テキスト → 画像 → テキスト → 画像 … と交互に入るチャットログ
  • テキスト中に図版(画像)が埋め込まれた技術レポート

などをそのまま入力できる。

これにより、

  • 単一画像キャプションだけでなく
  • 複数画像の比較
  • 画像をまたぎながらの議論

といった高度なマルチモーダル対話が可能になる。


8. 学習戦略:3 ステージの段階的学習プロセス

Qwen3-VL は、以下の 3 段階の学習プロセスを通じて能力を獲得する。

  1. Stage1:大規模事前学習(画像+テキストペア)
  2. Stage2:マルチタスク視覚言語学習
  3. Stage3:監督微調整(Instruct / Chat 特化)

8.1 Stage1:マルチモーダル事前学習

  • データソースの例:
    • LAION-5B の英語・中国語サブセット
    • DataComp, COYO
    • CC12M/CC3M, SBU
    • COCO キャプション など
  • 規模:
    • クリーニング後でも 十数億ペア級 の画像テキストペア

この段階では、

  • 言語モデルを部分的に凍結し
  • 視覚エンコーダと VL アダプタを主に最適化

しながら、次トークン予測(クロスエントロピー)で

  • 画像とテキストの 基本アライメント
  • キャプションの「常識」

をインストールする。

8.2 Stage2:マルチタスク視覚言語学習

次に、より高品質なアノテーション付きデータで
複数タスクを混在させた マルチタスク学習 を行う。

代表的タスク:

  • 画像キャプション
    – 与えられた画像の内容を自然言語で記述
  • VQA(Visual Question Answering)
    – 画像を見て質問に答える
  • 視覚グラウンディング(RefCOCO 系など)
    – テキストによる指示に対応する画像内領域を理解
  • OCR / テキスト読み取り
    – ドキュメント・シーンテキスト画像から文字列を抽出
  • 純テキスト言語モデリング
    – LLM の基本言語能力を維持・強化

この段階では、

  • 入力解像度を向上(Stage1 より高解像度)
  • 入力長を拡張(画像+長文テキストを 2k トークン以上に)
  • モデル全体(ViT + VL アダプタ + LLM)を微調整

することで、汎用的な視覚と言語の融合表現 を獲得する。

8.3 Stage3:監督微調整(Instruct / Chat 化)

最後に、対話形式のデータで

  • ユーザ指示に従う
  • 丁寧かつ安全な応答を返す
  • マルチターンの文脈を維持する

といった振る舞いを学習させる。

特徴:

  • 視覚エンコーダ側は基本的に凍結
  • 言語モデル+アダプタを中心に更新
  • マルチモーダル対話(画像付きチャット)と
    テキストのみの対話データを混ぜて学習

これにより、Qwen3-VL-Chat / Instruct のような
対話アシスタントとして使えるモデルが得られる。


9. 他のマルチモーダルモデルとの比較

9.1 BLIP-2(Salesforce)との比較

共通点

  • ViT(多くは CLIP 事前学習済み)+ LLM
  • 学習可能クエリ+クロスアテンションによる視覚特徴圧縮(Q-Former 型)

相違点

  • Qwen3-VL は DeepStack により、複数層の ViT 特徴を LLM の複数層に統合
  • 視覚エンコーダ自体も高解像度・多言語対応に微調整
  • データ規模・モデル規模が BLIP-2 より大きく、
    細部認識や高度な推論に強い

9.2 Flamingo(DeepMind)との比較

  • Flamingo は、言語層の途中にクロスアテンションを挿入する
    Perceiver Resampler により高性能を示したがクローズドモデル。
  • Qwen3-VL は同様の思想を DeepStack としてオープンソースで実装し、
    GitHub / Hugging Face でコードとモデルを公開。

研究コミュニティにとって、アーキテクチャ設計を 追体験・再利用できる 点が大きな価値。

9.3 LLaVA / MiniGPT-4 系との比較

  • これらは CLIP ViT 出力を線形層で LLM 埋め込みに写像し、
    数十万ペア程度のデータで軽量に学習したモデル群。
  • シンプルかつ実装容易だが、視覚エンコーダを凍結して少量データで調整するため
    認識精度や多様な視覚タスクへの汎用性に限界がある。

Qwen3-VL は

  • DeepStack + Interleaved-MRoPE + 大規模学習
  • Qwen3 LLM という強力なバックボーン

によって、画像キャプション・VQA 等のベンチマークで
LLaVA 系を大きく上回る性能を示す。

9.4 GPT-4V / Gemini との比較

  • GPT-4V / Gemini はクローズドな巨大モデルで、
    アーキテクチャやデータセットは非公開。
  • 一方、Qwen3-VL はオープンウェイトとして公開され、
    MoE による高効率化により、
    「巨大モデル級の性能」と「扱いやすさ」を両立しようとしている。

10. 実運用・エコシステム

10.1 GitHub / Hugging Face 上での提供

Qwen3-VL は以下の形で公開されている。

  • GitHub:モデル実装・推論スクリプト・デモノートブック
  • Hugging Face:
    Qwen/Qwen3-VL-4B-Instruct などの名前でモデルカードが公開されており、
    AutoModel.from_pretrained(...) で簡単にロード可能
  • ライセンス:Apache 2.0 など商用利用可能な条件

Dense 版(2B/4B/8B/32B)から MoE 版(30B/235B)まで
用途に応じて選択できる。

10.2 クラウドデモ・API

Alibaba Cloud / DashScope / ModelScope 等で

  • 画像理解 API
  • マルチモーダルチャットボット

として利用できるデモ・エンドポイントが提供されている。

これにより、研究用途だけでなく、

  • 画像キャプションサービス
  • ドキュメント理解・要約
  • 動画ハイライト生成
  • 視覚エージェント(GUI 操作)

などへの実サービス統合も視野に入る。


11. まとめ:画像キャプションからエージェントまで

本稿では、

  • 「視覚的認識から認知的推論へのパラダイムシフト」を強調した解説
  • 「Qwen3-VL(画像キャプション生成向けマルチモーダルモデル)のアーキ調査」

の 2 つの視点を統合しつつ、Qwen3-VL のアーキテクチャを整理した。

キーポイントは以下の通りである。

  1. DeepStack による視覚と言語の深層融合
    – ViT の複数層の特徴を LLM の複数層へ階層的に注入し、
    細部情報を維持しつつ高精度キャプションと推論を実現。

  2. Interleaved-MRoPE & Text–Timestamp Alignment による時空間理解
    – テキスト+画像+動画をインターリーブした長大コンテキストを扱い、
    動画内イベントを時間付きで正確に説明可能。

  3. Dense / MoE × Instruct / Thinking のハイブリッドラインナップ
    – エッジ〜クラウドまでスケーラブルな構成で、
    軽量な画像キャプションから重い科学図表推論・GUI 操作までカバー。

  4. 3 ステージ学習による汎用性と指示追従性
    – Web スケール事前学習 → マルチタスク訓練 → Instruct 微調整というプロセスにより、
    単なる「描写」にとどまらず、ユーザ意図に沿った推論込みの説明を生成可能。

結果として Qwen3-VL は、

  • 画像キャプション生成タスクにおいて
    「正確で詳細・文脈豊かな説明」を生成できるだけでなく、
  • GUI 操作エージェントや動画理解エージェントなど、
    より広義の「視覚的知性」の基盤としても機能する

次世代マルチモーダルモデルと言える。

Discussion