☀️

Qwen2.5-Omni公式ブログ日本語まとめ

2025/03/27に公開

本記事は以下の公式ブログを参考にしています。
https://qwenlm.github.io/blog/qwen2.5-omni/

Qwen2.5-Omniのリリース: 新しいフラッグシップマルチモーダルモデル

Qwenシリーズの新しいフラッグシップとなるエンドツーエンドのマルチモーダルモデル「Qwen2.5-Omni」をリリースしました。このモデルは、包括的なマルチモーダル知覚のために設計されており、テキスト、画像、音声、ビデオといった多様な入力をシームレスに処理し、リアルタイムでテキスト生成と自然な音声合成による応答を提供します。

最新モデルをお試しいただくには、ぜひQwen Chatにアクセスし、Qwen2.5-Omni-7Bを選んでください。このモデルは現在、Hugging FaceModelScopeDashScope、そしてGitHubで公開されています。技術文書は当社の論文で確認できます。また、インタラクティブ機能はDemoで体験でき、議論に参加したい方はDiscordにもぜひご参加ください。

主な特徴

Omniアーキテクチャと革新的な設計

Qwen2.5-Omniは、Thinker-Talkerアーキテクチャを採用しています。これは、テキスト、画像、音声、ビデオなど多様なモダリティを認識し、同時にストリーミング形式でテキストおよび自然な音声応答を生成できるエンドツーエンドのマルチモーダルモデルです。さらに、TMRoPE(Time-aligned Multimodal RoPE)という新しい位置埋め込み技術を考案し、ビデオ入力のタイムスタンプを音声と同期させます。

リアルタイム音声・ビデオチャット

完全なリアルタイム対話を実現するためのアーキテクチャで、チャンク化された入力をサポートし即時出力を可能にします。

自然で堅牢な音声生成

既存の多くのストリーミングおよび非ストリーミングの代替技術を上回り、音声生成において優れた堅牢性と自然さを実現しています。

さまざまなモダリティでの強力なパフォーマンス

同程度のサイズの単一モダリティモデルとのベンチマークテストでは、すべてのモダリティで卓越した性能を発揮します。Qwen2.5-Omniは、同じサイズのQwen2-Audioより音声機能が優れており、Qwen2.5-VL-7Bと同等の性能を達成しています。

優れたエンドツーエンドの音声指示への対応能力

MMLUやGSM8Kなどのベンチマークテストによって、Qwen2.5-Omniはエンドツーエンドの音声指示への対応能力がテキスト入力時と同様に高いことが示されています。

Qwen2.5-Omniのアーキテクチャについて

Qwen2.5-Omniは、Thinker-Talkerアーキテクチャを採用しています。このアーキテクチャは、人間の脳と口にたとえられる二つの主要なコンポーネントで構成されています。

Thinker(思考者)

  • Thinkerは「脳」のように機能し、テキスト、音声、ビデオといったさまざまなモダリティからの入力を処理・理解します。
  • 高レベルな表現(high-level representations)や対応するテキストを生成します。
  • 内部的には、Transformerデコーダーが使用され、音声や画像のエンコーダーが情報を抽出する役割を担います。

Talker(話者)

  • Talkerは「人間の口」のように動作します。
  • Thinkerによって生成された高レベルな表現とテキストをストリーミング形式で受け取り、自然な音声トークンを流暢に出力します。
  • Talkerは、双方向型自己回帰Transformerデコーダーとして設計されています。
  • トレーニング時および推論時には、Thinkerから直接高次元表現を受け取り、Thinkerの全履歴コンテキスト情報を共有します。

統合されたモデルとしての動作

  • ThinkerとTalkerは密接に連携して動作し、全体として一つの統合モデルとして機能します。
  • このアーキテクチャにより、エンドツーエンドでのトレーニングと推論が可能になっています。

特長

  • 多様なモダリティ(テキスト、音声、画像、ビデオ)をシームレスに処理。
  • リアルタイムでの応答生成を実現。
  • 高度な情報抽出と自然な音声生成を組み合わせることで、多様なユースケースに対応。

このように、Qwen2.5-Omniは革新的なアーキテクチャを通じて、マルチモーダルAIの可能性を広げています。

パフォーマンス

Qwen2.5-Omniの包括的な評価を行った結果、同程度のサイズの単一モダリティモデルや、Qwen2.5-VL-7B、Qwen2-Audio、Gemini-1.5-proなどのクローズドソースモデルと比較して、すべてのモダリティで優れたパフォーマンスを発揮することがわかりました。特に、複数のモダリティを統合する必要があるタスク(例: OmniBench)において、Qwen2.5-Omniは最先端の性能を達成しています。

さらに、単一モダリティのタスクでも、以下の分野で特に優れた成果を挙げています:

  • 音声認識(Common Voice)
  • 翻訳(CoVoST2)
  • 音声理解(MMAU)
  • 画像推論(MMMU、MMStar)
  • ビデオ理解(MVBench)
  • 音声生成(Seed-tts-evalおよび主観的自然性)

これらの結果から、Qwen2.5-Omniは多様なモダリティでの高い汎用性と優れた性能を持つモデルであることが示されています。

今後の展望

私たちは、皆様からのフィードバックを心待ちにしており、Qwen2.5-Omniを活用した革新的なアプリケーションが生まれることを楽しみにしています。近い将来の目標は、モデルの音声コマンドへの対応能力を向上させ、音声と視覚の協調理解をさらに強化することです。

さらに、より多くのモダリティを統合し、完全なオムニモデルの実現に向けて邁進してまいります!

Discussion