Qwen2.5-VL公式ブログ日本語まとめ
本記事は以下の公式ブログを参考にしています。
Qwen2.5-VL: 次世代の視覚言語モデルを公開
Alibaba Cloudは、新たなフラッグシップ視覚言語モデル「Qwen2.5-VL」を公開しました。本モデルは、前世代のQwen2-VLから飛躍的に進化しており、最新の技術を取り入れた革新的な機能を備えています。
Qwen2.5-VLを体験するには、Qwen Chatで「Qwen2.5-VL-72B-Instruct」を選択してください。また、3B、7B、72Bの3種類のサイズで、ベースモデルおよびインストラクションモデルをHugging FaceおよびModelScopeで公開しています。
主な特長
1. 視覚情報の高度な理解
Qwen2.5-VLは、花・鳥・魚・昆虫といった一般的な物体の認識だけでなく、テキスト・チャート・アイコン・グラフィック・レイアウトなど、より複雑な画像内情報を解析する能力を持ちます。
2. 視覚エージェントとしての機能
本モデルは、視覚的なエージェントとして動作し、コンピュータやスマートフォンを操作するための推論とツールの動的指示が可能です。
3. 長時間の動画理解とイベント検出
1時間以上の動画を理解できるほか、関連する動画セグメントを特定し、イベントを捉える新たな能力を備えています。
4. 多様なフォーマットでの視覚的ローカライゼーション
画像内のオブジェクトを正確にローカライズし、バウンディングボックスやポイントを生成できます。座標や属性のJSON出力も安定して提供可能です。
5. 構造化データの生成
請求書・フォーム・テーブルなどのスキャンデータを解析し、金融・商業分野での活用が期待される構造化出力をサポートします。
パフォーマンス
Qwen2.5-VLは、最新のSOTA(State-of-the-Art)モデルと比較評価され、幅広い分野で競争力のある性能を示しています。
- Qwen2.5-VL-72B-Instruct: 大学レベルの問題、数学、ドキュメント理解、一般的な質問応答、動画理解、視覚エージェントなどのベンチマークで優れた成績を記録。
- Qwen2.5-VL-7B-Instruct: GPT-4o-miniを上回るパフォーマンスを発揮。
- Qwen2.5-VL-3B: エッジAI向けの最適化モデルであり、前世代の7Bモデル(Qwen2-VL)を凌駕。
モデルの能力
1. グローバルな画像認識
Qwen2.5-VLは、動植物、名所・旧跡、映画・テレビシリーズのキャラクター、さまざまな製品まで、幅広いカテゴリの画像を認識できます。
例: 世界の名所認識
- ギザの大ピラミッド(エジプト)
- 万里の長城(中国)
- 自由の女神像(アメリカ)
- 兵馬俑(中国)
2. 精密なオブジェクトローカライゼーション
バウンディングボックスやポイントを用いた階層的なオブジェクト位置特定が可能。標準化されたJSON出力もサポート。
例: バイクのライダー検出
[
{"bbox_2d": [341, 258, 397, 360], "label": "motorcyclist", "sub_label": "not wearing helmet"},
{"bbox_2d": [212, 332, 274, 448], "label": "motorcyclist", "sub_label": "not wearing helmet"},
{"bbox_2d": [66, 124, 112, 198], "label": "motorcyclist", "sub_label": "not wearing helmet"},
{"bbox_2d": [5, 235, 63, 320], "label": "motorcyclist", "sub_label": "wearing helmet"}
]
3. 高度なOCR認識
マルチシナリオ・マルチ言語・マルチ向きのテキスト認識とローカライゼーション能力を強化。
例: 縦書きテキスト認識
平安喜楽 八方来財 順風順水順財神 暴富 大吉 諸事皆順 福 時来運転 発財 如意 有錢有勢有前程 好運来
4. 強力なドキュメント解析
独自のQwenVL HTMLフォーマットを開発し、雑誌・研究論文・ウェブページ・モバイルスクリーンショットなどのレイアウト情報を抽出。
例: HTML出力形式
<h1>Qwen2.5 Technical Report</h1>
<p>Qwen Team</p>
<p>https://huggingface.co/Qwen</p>
5. 動画理解の強化
時間スケールの認識を向上させ、長時間の動画理解を実現。特定のイベントを素早く検出し、要点をまとめる能力を持ちます。
例: 動画からの情報抽出
論文タイトル一覧:
- A New Sequential Prediction Framework with Spatial-temporal Embedding
- NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
6. コンピュータ・モバイルエージェント
視覚情報を活用したエージェント機能を強化。スマートフォンやPCの操作も可能。
例: モバイルアプリ操作
ユーザー: 「1月28日の重慶江北空港発、北京首都空港着の片道チケットを予約してください。」
Qwen2.5-VL: 予約完了。
モデルの進化
Qwen2.5-VLでは、時間・空間スケールの認識を強化し、よりシンプルで効率的なネットワーク構造を採用しました。
- 時間・画像サイズの認識強化: 動的FPSトレーニング、絶対時間エンコーディングを導入。
- 効率的なビジュアルエンコーダー: ViTの負荷を軽減し、Window Attentionを活用。
今後の展望
Qwen2.5-VLは、今後さらに問題解決・推論能力を強化し、マルチモーダルな統合モデルへの発展を目指します。さらなる進化にご期待ください!
Discussion