🌌

Qwen2.5-Omni:マルチモーダルAIの新たな地平を切り開く次世代モデル

に公開

Qwen2.5-Omni:マルチモーダルAIの新たな地平を切り開く次世代モデル

はじめに:マルチモーダルAIの発展とQwen2.5-Omniの位置づけ

人工知能の歴史において、マルチモーダルAIの発展は新たな段階を迎えています。従来のAIモデルは、テキスト、画像、音声などの単一モダリティに特化していましたが、人間のような総合的な理解と表現能力を実現するためには、複数のモダリティを統合的に処理する能力が不可欠です。

2023年頃から、大規模言語モデル(LLM)に画像理解能力を統合したマルチモーダルAIが登場し始めました。GPT-4V、Gemini、Claude 3 Sonnetなどがその代表例です。これらのモデルは、テキストと画像の統合的理解を可能にしましたが、本格的なリアルタイム音声対話や動画の理解など、より高度なマルチモーダル能力には制限がありました。

そんな中、Alibaba Cloudの「Qwen」チームによって開発された「Qwen2.5-Omni」は、マルチモーダルAIの新たな水準を打ち立てました。このモデルは、テキスト、画像、音声、ビデオという4つの主要なモダリティを統合的に処理するだけでなく、テキストと音声の両方をリアルタイムでストリーミング生成できる能力を持っています。

本記事では、このQwen2.5-Omniの革新的なアーキテクチャ、技術的特徴、性能評価、そして応用例について詳しく解説していきます。

Qwen2.5-Omniの概要

エンドツーエンドのマルチモーダルモデルとしての特徴

Qwen2.5-Omniは、Alibaba Cloudの「Qwen」チームが開発した最新のエンドツーエンドマルチモーダルモデルです。その最大の特徴は、単一のモデルでありながら、多様なモダリティの入力を処理し、テキストと音声の両方を同時に生成できる点にあります。

このモデルは、既存のQwenシリーズの強みを継承しつつ、新たなマルチモーダル機能を統合しています。特に注目すべきは、「Thinker-Talker」と呼ばれる独自のアーキテクチャを採用している点です。これにより、テキスト生成と音声生成を並行して行うことができます。

テキスト、画像、音声、ビデオを統合的に処理する能力

Qwen2.5-Omniの核心的な特徴は、以下の4つの主要モダリティを統合的に処理できる点にあります:

  1. テキスト理解・生成:大規模言語モデルとしての基本能力を持ち、複雑なテキスト理解やテキスト生成タスクを高精度で実行できます。

  2. 画像理解:静止画像を深く理解し、画像の詳細な内容を説明したり、画像に関する質問に回答したりする能力を持っています。

  3. 音声理解・生成:音声入力を理解し、そこに含まれる言語的内容だけでなく、感情やニュアンスまで捉えることができます。また、自然で表現力豊かな音声を生成する能力も備えています。

  4. ビデオ理解:動画内の視覚情報と音声情報を統合的に理解し、ビデオコンテンツに関する質問に的確に回答できます。

これらのモダリティを統合するために、Qwen2.5-Omniは特別な「TMRoPE(Time-aligned Multimodal RoPE)」と呼ばれる位置埋め込み手法を導入しています。これにより、ビデオの視覚情報と音声情報の時間的同期が可能になり、より正確なマルチモーダル理解が実現されています。

リアルタイムのテキスト・音声生成機能

Qwen2.5-Omniの最も革新的な機能の一つが、リアルタイムでのテキストと音声の同時生成能力です。従来のテキスト生成モデルと音声合成システムを単に組み合わせた場合、テキスト生成が完了するまで音声合成を開始できず、リアルタイム性が損なわれていました。

しかし、Qwen2.5-Omniはテキスト生成と音声生成を並行して行うことができるため、人間との自然な対話が可能になります。ユーザーが質問を投げかけると、モデルはテキスト応答を生成すると同時に、対応する音声を生成し始めます。これにより、より自然で流暢な対話体験が実現されます。

また、このモデルは音声合成において2つの異なる声質(「Chelsie」と「Ethan」)をサポートしており、ユーザーはこれらを切り替えて使用することができます。

技術的詳細

Thinker-Talker アーキテクチャの解説

Qwen2.5-Omniの中核をなすのが、独自の「Thinker-Talker」アーキテクチャです。これは人間の脳と口の関係に着想を得たアーキテクチャで、テキスト生成と音声生成を効率的に連携させる仕組みを提供しています。

Thinker-Talkerアーキテクチャ
Qwen2.5-Omniの「Thinker-Talker」アーキテクチャの概略図

Thinker(思考者)

  • 大規模言語モデルの役割を担い、マルチモーダル入力の理解とテキスト生成を担当
  • 音声エンコーダーやビジョンエンコーダーからの情報を統合し、高次元の意味表現を生成
  • 自己回帰的にテキストトークンを生成

Talker(話者)

  • Thinkerから高次元表現を直接受け取り、それをもとに音声を生成
  • デュアルトラック自己回帰モデルとして設計され、音声トークンを生成
  • スライディングウィンドウ方式のDenoising Transformer (DiT) を使用して、音声トークンを波形に変換

このアーキテクチャの最大の利点は、Thinkerが生成した意味表現をTalkerがリアルタイムで受け取ることができる点です。Thinkerがテキストを完全に生成する前でも、Talkerは部分的な意味表現から音声生成を開始できるため、人間の対話のようなスムーズな応答が可能になります。

トレーニング時には、ThinkerとTalkerは共通のコンテキスト情報を共有し、エンドツーエンドで訓練されます。これにより、テキスト生成と音声生成の一貫性が確保されています。

TMRoPE(Time-aligned Multimodal RoPE)の詳細

Qwen2.5-Omniが導入したもう一つの重要な技術的イノベーションが、「TMRoPE(Time-aligned Multimodal RoPE)」と呼ばれる位置埋め込み手法です。これは、特にビデオと音声の時間的同期を実現するために開発された新しい手法です。

TMRoPE概略図
TMRoPE(Time-aligned Multimodal RoPE)の概略図

TMRoPEの主な特徴は以下の通りです:

  1. 3次元位置情報のエンコード:時間、高さ、幅の3次元位置情報をエンコードします。テキスト入力に対しては、これらの成分に同一のポジションIDを使用し、1D-RoPE(Rotary Position Embedding)と機能的に同等になります。

  2. 時間的絶対位置エンコーディング:音声入力に対しては、絶対的な時間位置エンコーディングを導入し、1つの時間IDが約40msに対応します。

  3. 画像処理:画像処理時には、すべての視覚トークンの時間IDは一定ですが、高さと幅の成分には、画像内のトークン位置に基づいて異なるIDが割り当てられます。

  4. ビデオ処理:ビデオ処理時には、各フレームごとに時間IDが増分され、高さと幅の成分は画像と同じパターンで割り当てられます。フレームレートが固定されていないため、実際の時間に基づいて時間IDを動的に調整します。

  5. 時間インターリーブ法:ビデオと音声を同時に処理する場合、2秒ごとにチャンクに分割し、ビデオの表現を前に、音声の表現を後ろに配置するインターリーブ手法を採用しています。

この手法により、Qwen2.5-Omniはビデオと音声の時間的関係を正確に捉えることができ、例えば「ビデオのこの時点で何と言っていますか?」といった質問に正確に答えることができます。

ストリーミング処理のための設計

Qwen2.5-Omniのもう一つの重要な技術的特徴が、ストリーミング処理のための設計です。特に音声や動画のような時系列データをリアルタイムで処理するために、いくつかの革新的な手法が導入されています。

ストリーミング処理の主な技術的改善点:

  1. ブロック単位のエンコーディング:音声エンコーダーと視覚エンコーダーを修正し、時間次元に沿ってブロック単位での注意メカニズムをサポートするようにしました。具体的には、音声エンコーダーは全体の音声に対する完全な注意から、2秒ごとのブロックでの注意へと変更されています。

  2. チャンクドプレフィル対応:現代の推論フレームワークで広く使用されている「Chunked-prefills」メカニズムをサポートするための改善が行われています。これにより、長いシーケンスデータを効率的に処理できます。

  3. スライディングウィンドウブロック注意メカニズム:特に長いシーケンスの音声ストリーミングのために、現在のトークンのコンテキストアクセスを制限するスライディングウィンドウブロック注意メカニズムが導入されています。

  4. フローマッチングDiTモデル:音声コードからメルスペクトログラムへの変換には、フローマッチング(Flow-Matching)DiTモデルが使用されています。さらに、生成されたメルスペクトログラムを波形に再構築するために、修正されたBigVGANが用いられています。

これらの技術的改善により、Qwen2.5-Omniは初期パケット遅延を減少させ、リアルタイムでのストリーミング処理を可能にしています。具体的には、音声や動画の入力処理の遅延、テキスト入力受信から最初の音声トークン出力までの遅延、最初の音声セグメントを音声に変換する遅延、そしてアーキテクチャ自体の固有の遅延など、複数の遅延要因を最小化するための工夫が施されています。

性能評価

テキスト理解・生成性能

Qwen2.5-Omniは、テキスト理解・生成においても高い性能を示しています。テキスト単体の処理能力を評価するために、様々なベンチマークタスクで評価が行われました。以下にその結果の一部を紹介します。

テキスト理解・生成のベンチマーク結果:

データセット Gemma2-9B Llama3.1-8B Qwen2-7B Qwen2.5-7B Qwen2.5-Omni-7B
一般タスク
MMLU-Pro 52.1 48.3 44.1 56.3 47.0
MMLU-redux 72.8 67.2 67.3 75.4 71.0
LiveBench 0831 30.6 26.7 29.2 35.9 29.6
数学・科学タスク
GPQA 32.8 32.8 34.3 36.4 30.8
MATH 44.3 51.9 52.9 75.5 71.5
GSM8K 76.7 84.5 85.7 91.6 88.7
コーディングタスク
HumanEval 68.9 72.6 79.9 84.8 78.7
MBPP 74.9 69.6 67.2 79.2 73.2
MultiPL-E 53.4 50.7 59.1 70.4 65.8
LiveCodeBench 18.9 8.3 23.9 28.7 24.6

Qwen2.5-Omniのテキスト理解・生成性能は、同規模のQwen2-7Bを上回り、テキストのみに特化したQwen2.5-7Bと比較すると若干劣るものの、マルチモーダルモデルとしては非常に高い性能を維持しています。特に数学タスク(MATHやGSM8K)では、テキスト専用モデルに匹敵する高い性能を示しています。

音声理解・生成性能

Qwen2.5-Omniの音声理解・生成能力も非常に高く評価されています。特に、音声認識、音声翻訳、感情認識、音楽理解などの多様な音声関連タスクで優れた性能を発揮しています。

音声認識(ASR)の性能:

データセット Whisper-large-v3 Qwen2-Audio Qwen2.5-Omni-7B
Librispeech test-clean 1.8 1.6 1.8
Librispeech test-other 3.6 3.6 3.4
Common Voice 15 (英語) 9.3 8.6 7.6
Common Voice 15 (中国語) 12.8 6.9 5.2
Fleurs (中国語) 7.7 7.5 3.0

音声翻訳(S2TT)の性能:

データセット Qwen-Audio Qwen2-Audio Qwen2.5-Omni-7B
CoVoST2 en-de 25.1 29.9 30.2
CoVoST2 de-en 33.9 35.2 37.7
CoVoST2 en-zh 41.5 45.2 41.4
CoVoST2 zh-en 15.7 24.4 29.4

音声生成(TTS)の性能:

データセット Seed-TTS MaskGCT CosyVoice 2 Qwen2.5-Omni-7B
SEED test-zh (WER) 1.00 2.27 1.45 1.42
SEED test-en (WER) 1.94 2.62 2.57 2.32
SEED test-hard (WER) 6.42 10.27 6.83 6.54

Qwen2.5-Omniは、音声専用のQwen2-Audioモデルと比較しても同等以上の性能を示しており、特に音声認識や音声翻訳タスクでは優れた結果を達成しています。また、音声生成においても低いWER(単語誤り率)を示し、高品質な音声合成能力を持っていることが分かります。

特筆すべきは、音声対話(Voice Chatting)能力の高さです。VoiceBenchの評価では、Qwen2.5-Omniは平均74.12点を獲得し、他の音声言語モデルやマルチモーダルモデルを上回る結果を示しています。

画像理解性能

画像理解においても、Qwen2.5-Omniは優れた性能を発揮しています。以下に、主要な画像理解ベンチマークでの結果を示します。

大学レベルの問題解決:

データセット GPT-4o-mini Qwen2.5-VL-7B Qwen2.5-Omni-7B
MMMU val 60.0 58.6 59.2
MMMU-Pro overall 37.6 38.3 36.6

数学的視覚理解:

データセット GPT-4o-mini Qwen2.5-VL-7B Qwen2.5-Omni-7B
MathVista testmini 52.5 68.2 67.9
MathVision full - 25.1 25.0

一般的な視覚質問応答:

データセット GPT-4o-mini Qwen2.5-VL-7B Qwen2.5-Omni-7B
MMBench-V1.1-EN test 76.0 82.6 81.8
MMVet turbo 66.9 67.1 66.8
MMStar 54.8 63.9 64.0
MME sum 2003 2347 2340

Qwen2.5-Omniは、画像専用の大規模モデルであるQwen2.5-VLと同等の性能を示しており、GPT-4o-miniなどの他のマルチモーダルモデルと比較しても競争力のある結果を達成しています。特に、数学的視覚理解タスクでは高い性能を維持しています。

ビデオ理解性能

Qwen2.5-Omniはビデオ理解においても高い能力を示しています。以下に、ビデオ理解に関する主要なベンチマークでの結果を示します。

ビデオ理解ベンチマーク:

データセット GPT-4o-mini Qwen2.5-VL-7B Qwen2.5-Omni-7B
Video-MME w/o sub 64.8 65.1 64.3
Video-MME w sub - 71.6 72.4
MVBench - 69.6 70.3
EgoSchema test - 65.0 68.6

ビデオ理解においても、Qwen2.5-Omniは画像専用のQwen2.5-VLと同等かそれ以上の性能を示しています。特に、EgoSchema testでは3.6ポイント上回る結果を達成しています。これは、TMRoPEによる時間的位置エンコーディングの効果と考えられます。

マルチモーダル理解性能

Qwen2.5-Omniの最も顕著な強みは、複数のモダリティを統合的に理解する能力です。この能力を評価するために、OmniBenchという複数のモダリティを含むベンチマークが使用されました。

OmniBenchの結果:

モデル Speech Sound Event Music 平均
Gemini-1.5-Pro 42.67% 42.26% 46.23% 42.91%
MIO-Instruct (7B) 36.96% 33.58% 11.32% 33.80%
AnyGPT (7B) 17.77% 20.75% 13.21% 18.04%
MiniCPM-o - - - 40.5%
Baichuan-Omni-1.5 - - - 42.9%
Qwen2.5-Omni-7B 55.25% 60.00% 52.83% 56.13%

この結果から、Qwen2.5-Omniは他のマルチモーダルモデルを大幅に上回る性能を示していることが分かります。特に、音声、音響イベント、音楽の理解において優れた結果を達成しており、平均スコアでも最も高い56.13%を記録しています。

性能比較チャート
Qwen2.5-Omniと他のモデルの性能比較

他のLLMモデルとの比較

同規模の単一モーダルモデルとの比較

Qwen2.5-Omniの興味深い特徴の一つは、同規模の単一モーダルモデルと比較しても遜色ない性能を発揮する点です。具体的には以下のような比較結果が得られています:

  1. テキスト専用モデルとの比較

    • MMLU-reduxなどの一般的なテキスト理解タスクでは、Qwen2.5-Omni(71.0%)はLlama3.1-8B(67.2%)やQwen2-7B(67.3%)を上回る性能を示しています。
    • 数学や科学タスクでも、MATH(71.5%)やGSM8K(88.7%)などで高いスコアを達成しています。
  2. 音声専用モデルとの比較

    • 音声認識タスクでは、Qwen2.5-Omniは専用の音声モデルであるQwen2-Audioと同等かそれ以上の性能を示しています。
    • 特に音声理解(MMAU)では、音声専用モデルを大幅に上回る結果を達成しています。
  3. 画像専用モデルとの比較

    • MMMU、MathVista、MMBenchなどの様々な画像理解タスクにおいて、Qwen2.5-Omniは画像専用のQwen2.5-VLと同等の性能を維持しています。

これらの結果は、Qwen2.5-Omniが複数のモダリティを統合しながらも、各モダリティの専門性を損なわないアーキテクチャを実現していることを示しています。

他のマルチモーダルモデルとの比較

Qwen2.5-Omniを他のマルチモーダルモデルと比較すると、以下のような特徴が浮かび上がります:

  1. GPT-4o-miniとの比較

    • 画像理解タスクにおいて、Qwen2.5-OmniはGPT-4o-miniを多くのベンチマークで上回っています。
    • MMStar(Qwen2.5-Omni: 64.0% vs GPT-4o-mini: 54.8%)など、複雑な視覚理解タスクで大きな差が見られます。
  2. Gemini-1.5-Proとの比較

    • マルチモーダル理解(OmniBench)において、Qwen2.5-Omni(56.13%)はGemini-1.5-Pro(42.91%)を大幅に上回っています。
    • 特に音声と音響イベントの理解で顕著な差が見られます。
  3. 他のオープンソースマルチモーダルモデルとの比較

    • MiniCPM-o、Baichuan-Omni-1.5などの他のオープンソースマルチモーダルモデルと比較しても、全体的に優れた性能を示しています。
    • 特にリアルタイム音声生成能力は、Qwen2.5-Omniの大きな優位性です。

Qwen2.5-Omniの最大の強みは、複数のモダリティを統合的に処理する能力だけでなく、リアルタイムのテキストと音声の同時生成能力にあります。これにより、より自然でインタラクティブなユーザー体験を提供することができます。

実用例・応用例

Qwen2.5-Omniの多様なマルチモーダル機能は、様々な実用的応用例を可能にします。以下にいくつかの代表的な利用シナリオを紹介します。

Qwen2.5-Omniの応用例
Qwen2.5-Omniの主な応用例

音声対話アプリケーション

Qwen2.5-Omniの最も直接的な応用例は、高度な音声対話アプリケーションです:

  1. リアルタイム音声アシスタント

    • Qwen2.5-Omniは、テキストと音声を同時に生成できるため、より自然でスムーズな音声アシスタント体験を提供できます。
    • ユーザーの質問に対して、理解と応答を即座に開始し、人間のような対話の流れを実現します。
  2. マルチモーダル会話型AI

    • 音声だけでなく、画像やビデオも理解できるため、「この写真について教えて」「このビデオで何が起きている?」といった複合的な会話が可能になります。
    • 音声と画像を組み合わせた入力に対して、テキストと音声の両方で応答できます。
  3. 多言語音声翻訳アシスタント

    • 多言語音声認識と翻訳機能を活用して、リアルタイムの会話翻訳を実現します。
    • 例えば、中国語の音声入力を英語の音声で出力するといった用途に使用できます。

ビデオ解析・理解アプリケーション

Qwen2.5-Omniのビデオ理解能力は、以下のような応用例を可能にします:

  1. ビデオコンテンツのリアルタイム分析

    • 動画コンテンツをリアルタイムで分析し、その内容を説明したり質問に回答したりすることができます。
    • 例えば、「このビデオの主な内容は?」「このシーンで登場人物は何と言っている?」といった質問に答えられます。
  2. 監視映像の解析・要約

    • 監視カメラの映像から重要なイベントや異常を検出し、テキストや音声で報告することができます。
    • 長時間の映像から重要な部分を自動的に抽出し、要約することが可能です。
  3. 教育ビデオの強化

    • 教育ビデオの内容を理解し、追加の説明や質問応答を提供することができます。
    • 特定のトピックに関する補足情報をリアルタイムで提供することで、学習体験を向上させます。

マルチモーダル対話システム

Qwen2.5-Omniの統合的なマルチモーダル能力は、より高度な対話システムを可能にします:

  1. スクリーン録画インタラクション

    • ユーザーが画面を録画しながら質問することで、リアルタイムで画面の内容について質問できます。
    • 例えば、ソフトウェアの使い方を学ぶ際に、画面を見せながら「この機能は何ですか?」と質問できます。
  2. オムニチャット

    • 音声、ビデオ、テキスト、画像を自由に組み合わせた会話を実現します。
    • 例えば、ユーザーが音声で質問し、画像やビデオを提示した場合でも、それらすべてを理解して応答できます。
  3. マルチモーダルコンテンツ生成

    • テキスト入力からリアルタイムでナレーション付きの説明を生成するなど、マルチモーダルコンテンツの自動生成が可能になります。
    • プレゼンテーションや教育コンテンツの作成を支援します。

これらの応用例は、Qwen2.5-Omniの能力を活用した一部に過ぎません。実際には、ヘルスケア、カスタマーサービス、エンターテイメント、アクセシビリティなど、さらに多くの分野での応用が考えられます。

今後の展望と課題

Qwen2.5-Omniは、マルチモーダルAIの可能性を大きく広げる革新的なモデルですが、さらなる発展の余地と課題も存在します。

今後の発展可能性

  1. モデルサイズの拡張

    • 現在のQwen2.5-Omniは7Bパラメータサイズですが、より大きなモデルサイズで性能向上が期待できます。
    • 将来的には、より大規模なパラメータを持つバージョンが登場する可能性があります。
  2. 出力モダリティの拡張

    • 現在はテキストと音声の出力に対応していますが、将来的には画像や動画の生成など、より多様な出力モダリティをサポートする可能性があります。
    • これにより、マルチモーダル対話システムの表現力がさらに向上します。
  3. リアルタイム性の向上

    • 現在でもストリーミング処理に対応していますが、さらに低遅延かつ高品質な処理を実現するための改良が期待されます。
    • 特に、モバイルデバイスなどの制約のあるプラットフォームでの効率的な実行が課題となります。
  4. より深い理解と推論能力

    • 複数のモダリティ間の関係をより深く理解し、複雑な推論を行う能力の向上が期待されます。
    • 特に、長時間のビデオや複雑なマルチモーダルコンテンツの理解が課題です。

現在の課題

  1. 計算リソースの要求

    • マルチモーダル処理、特にビデオ処理は多くの計算リソースを必要とします。GPUメモリ要件は、15秒のビデオでBF16精度の場合で約31GB、60秒のビデオでは約60GBに達します。
    • より効率的なアーキテクチャや最適化手法の開発が必要です。
  2. 言語サポートの拡充

    • より多くの言語での音声認識と生成能力の向上が課題です。
    • 特に低リソース言語のサポート強化が望まれます。
  3. 長時間コンテンツの処理

    • 長時間のビデオや音声の処理には、メモリ消費と処理時間の課題があります。
    • より効率的なアテンションメカニズムや長時間コンテンツの要約技術の開発が必要です。
  4. プライバシーとセキュリティ

    • マルチモーダルAIは、より多くの個人情報を処理する可能性があるため、プライバシー保護とセキュリティ強化が重要な課題です。
    • ローカル処理やプライバシー保護技術の統合が望まれます。

これらの課題を克服することで、Qwen2.5-OmniをはじめとするマルチモーダルAIは、より広範な応用分野で実用化されていくでしょう。

まとめ

Qwen2.5-Omniは、マルチモーダルAIの新たな地平を切り開く革新的なモデルです。テキスト、画像、音声、ビデオという4つの主要なモダリティを統合的に処理し、テキストと音声の両方をリアルタイムで生成できる能力は、AIとのインタラクションの在り方を根本から変える可能性を秘めています。

その核心的な技術的イノベーションである「Thinker-Talker」アーキテクチャと「TMRoPE」位置埋め込み手法は、複数のモダリティを効果的に統合し、特にリアルタイムのストリーミング処理を可能にする独自の解決策を提供しています。

性能評価では、Qwen2.5-Omniは同規模の単一モーダルモデルと比較しても遜色ない結果を示し、マルチモーダル理解においては他のモデルを大幅に上回る性能を達成しています。これは、マルチモーダルAIが専門性を損なうことなく、統合的な理解能力を獲得できることを示す重要な進歩です。

実用面では、音声アシスタント、ビデオ分析、教育支援、コンテンツ制作など、多様な応用例が考えられます。特に、リアルタイムの音声対話や動画理解能力は、ユーザー体験を大きく向上させる可能性を秘めています。

もちろん、計算リソースの要求や長時間コンテンツの処理など、いくつかの課題も残されていますが、Qwen2.5-OmniはマルチモーダルAIの未来に向けた重要な一歩と言えるでしょう。今後の発展と実用化が大いに期待される革新的なモデルです。

参考リンク

Discussion