Qwen QvQ公式ブログ日本語まとめ
本記事は以下の公式ブログを参考にしています。
QVQ: 知恵で世界を見つめる
言語と視覚の交差点
言語と視覚は人間の思考において密接に結びついており、私たちが世界を認識し、理解する方法を形成しています。私たちの推論能力は、言語的思考と視覚的記憶に深く根ざしています。しかし、これらの能力をAIに拡張するとどうなるでしょうか?
現在の大規模言語モデル(LLM)は、驚くべき推論能力を示していますが、視覚的理解の力を活用することで、さらに高い認知能力に到達できるのではないかと考えました。
QVQのビジョン
例えば、複雑な物理の問題を見て、熟練した物理学者のように自信を持って解決するAIを想像してください。このビジョンを実現するために、私たちはQVQを開発しました。QVQは、Qwen2-VL-72Bを基盤としたマルチモーダル推論のためのオープンウェイトモデルです。QVQは、視覚的理解と複雑な問題解決において大きな進歩を遂げました。具体的には、MMMUスコアで70.3を達成し、Qwen2-VL-72B-Instructに比べて数学関連のベンチマークで大幅な改善を示しました。段階的な推論を通じて、QVQは特に高度な分析思考が求められる分野での視覚推論タスクにおいて優れた能力を発揮しています。
限界と課題
QVQ-72B-Previewは、視覚推論能力を向上させることを目的とした実験的な研究モデルです。その性能は期待を上回る結果を示していますが、いくつかの制約もあります。
- 言語混在とコードスイッチング: モデルが言語を混在させたり、切り替えたりすることで、応答の明確性に影響を与える場合があります。
- 再帰的推論: 循環的な論理パターンに陥り、結論に至らない冗長な応答を生成することがあります。
- 安全性と倫理的考慮: モデルの信頼性と安全性を確保するために、強化された安全対策が必要です。
- パフォーマンスとベンチマークの限界: 視覚推論での改善は見られるものの、Qwen2-VL-72B-Instructの能力を完全には代替できません。また、多段階の視覚推論では、画像内容への集中が徐々に失われ、誤った結果を生成する可能性があります。
パフォーマンス評価
QVQ-72B-Previewは、以下の4つのデータセットで評価されました。
- MMMU: 大学レベルの学際的なマルチモーダル評価データセットで、視覚に関連する包括的な理解と推論能力を評価します。
- MathVista: 数学に焦点を当てた視覚推論テストセットで、パズルの図形を使った論理的推論や関数グラフを用いた代数的推論、学術論文の図表を活用した科学的推論を評価します。
- MathVision: 実際の数学競技から派生した高品質なマルチモーダル数学推論テストセットで、MathVistaよりも問題の多様性と分野の幅広さを特徴とします。
- OlympiadBench: オリンピックレベルの数学・物理競技のバイリンガルマルチモーダル科学ベンチマークテストセットで、中国の大学入試を含む8,476問を収録しています。それぞれの問題には、専門家レベルの段階的推論プロセスが注釈されています。
特に、QVQ-72B-Previewは、MMMUベンチマークで70.3という驚異的なスコアを達成し、その前身であるQwen2-VL-72B-Instructを大きく上回っています。さらに、数学や科学の問題に焦点を当てた他の3つのベンチマークでも、最先端モデルとの性能差を効果的に縮小しています。
次のステップ
私たちはAGI(汎用人工知能)の実現に向けて、視覚情報に基づく深い思考と推論能力を備えた統一モデルを開発しています。近い将来、さらなるモダリティを統合し、複雑な課題への対応や科学的探求を可能にする、より高度で知的なモデルを目指します。
Discussion