👂

Qwen3-ASR:高精度・多言語対応の次世代音声認識サービス登場!

に公開

本記事は以下の公式ブログを参考にしています。
https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

🎧 聞こえる音を、正確に、賢く文字に変える

私たちは本日、Qwen3-ASR-Flash — 新世代の音声認識(ASR)サービスを正式にリリースします!

このサービスは、マルチモーダルAI「Qwen3-Omni」の強力な知能と、数千万時間規模の音声認識専用データを基盤に開発されました。多彩な言語・アクセントへの対応に加え、歌の歌詞認識文脈に応じたカスタマイズ機能など、他にはない柔軟性と高精度を実現しています。


📊 パフォーマンスのハイライト

💎 主な特長

1. 業界トップクラスの認識精度

中国語・英語をはじめ、対応する全11言語において、主要な業界ベンチマークで競合モデルを上回る性能を達成。特に雑音環境や難しい発話パターンにも強い安定性を発揮します。

2. 歌の歌詞も正確に認識

背景音楽が流れていても、ラップや歌唱部分をしっかり文字起こし。音楽コンテンツの自動字幕化や歌詞抽出に最適です。

3. 自由な文脈ヒント(コンテキストバイアシング)

ユーザーが任意の「背景テキスト」を提示することで、認識結果をカスタマイズ可能。事前処理不要で、どんな形式でもOK!

  • キーワードリスト(例:商品名、人名、専門用語)
  • 長文ドキュメント(例:講義資料、脚本、小説)
  • キーワード+長文の混合形式
  • 無関係・意味不明なテキスト(認識精度への悪影響はほぼなし)

4. 言語自動判別&非音声セグメント排除

11言語を自動判別。無音や環境雑音などの「音声でない部分」を正確に除外し、クリーンな文字起こしを実現。

5. 複雑な環境でも安定稼働

車内雑音・重いアクセント・複数言語混在(コードスイッチング)など、従来のASRが苦手とするシーンでも高精度を維持。


🌏 対応言語一覧(単一モデルで全言語対応!)

Qwen3-ASR-Flashは、1つのモデルで以下の言語・方言・アクセントを網羅的にサポートします。

🇨🇳 中国語

  • 標準中国語(普通話)
  • 主要方言:四川語、閩南語(ホーロー語)、呉語、広東語(広東話)など

🇬🇧 英語

  • 米国・英国アクセントを含む、多様な地域アクセントに対応

🌍 その他の言語

  • フランス語、ドイツ語、ロシア語、イタリア語
  • スペイン語、ポルトガル語、日本語、韓国語、アラビア語

💡 文脈ヒント(コンテキストバイアシング)とは?

「この会話には専門用語が出てくる」「この動画はゲーム実況だから、特定のキャラ名や技名を優先してほしい」——そんな要望に応えるのが、文脈ヒント機能です。

従来のASRでは、キーワードリストを事前に登録する必要がありましたが、Qwen3-ASR-Flashでは、ユーザーが自由にテキストを“投げ込む”だけでOK。形式や長さに制限はありません。

例:化学の講義 → 「ベンゼン環」「エステル化」「モル濃度」などの用語を含む資料を添付
例:eスポーツ実況 → 「ヘッドショット」「ラッシュ」「エコラウンド」などの用語リストを提示

無関係なテキストを混ぜても、通常の認識精度はほとんど低下しません。柔軟で安心な設計です。


🔮 デモサンプル(一部紹介)

※ 以下のデモは、Example2を除き、文脈ヒントなしの単一推論で実行しています。

  1. さまざまな連続雑音の中での音声
  2. 『CS:GO』ゲーム実況(※文脈ヒント使用)
  3. 英語ラップソング(背景音楽あり)
  4. 車内雑音+強いアクセントの英語
  5. 複数言語が混在する会話(コードスイッチング)
  6. 大学の化学講義(専門用語多数)

→ 実際の音声サンプルと認識結果は、[公式デモページ](リンクを挿入)で体験可能です!


🚀 今後の展望

Qwen3-ASR-Flashは、APIサービスとして提供されるため、継続的なアップデートで性能向上・新機能追加を予定しています。

  • 一般認識精度のさらなる向上
  • 文脈ヒント機能の拡張と最適化
  • 新言語・新アクセントの追加対応
  • より高度なノイズ耐性・リアルタイム処理の強化

研究開発チームは、ユーザーのフィードバックをもとに、より使いやすく、より賢い音声認識を目指して進化を続けていきます。


✅ こんな方におすすめ

  • 動画・ポッドキャストの自動字幕作成者
  • 多言語対応が必要なグローバル企業
  • ゲーム・音楽・教育コンテンツ制作者
  • 医療・法律・技術分野の専門用語を扱う現場
  • 雑音環境での音声記録を必要とする研究者・エンジニア

📣 さあ、あなたの音声を“文字の力”に変えましょう!

Qwen3-ASR-Flash — 聞こえるすべてを、正確に、自由に、スマートに文字へ。

今すぐAPIドキュメントをチェックして、あなたのプロジェクトに組み込んでみませんか?

APIドキュメント・サインアップはこちら👉
https://t.co/bB64vHbE1f

Discussion