👂

Qwen3-ASR：高精度・多言語対応の次世代音声認識サービス登場！

2025/09/11に公開

本記事は以下の公式ブログを参考にしています。

https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

 🎧 聞こえる音を、正確に、賢く文字に変える私たちは本日、Qwen3-ASR-Flash — 新世代の音声認識（ASR）サービスを正式にリリースします！
このサービスは、マルチモーダルAI「Qwen3-Omni」の強力な知能と、数千万時間規模の音声認識専用データを基盤に開発されました。多彩な言語・アクセントへの対応に加え、歌の歌詞認識や文脈に応じたカスタマイズ機能など、他にはない柔軟性と高精度を実現しています。

 📊 パフォーマンスのハイライト
 💎 主な特長
 1. 業界トップクラスの認識精度
中国語・英語をはじめ、対応する全11言語において、主要な業界ベンチマークで競合モデルを上回る性能を達成。特に雑音環境や難しい発話パターンにも強い安定性を発揮します。

 2. 歌の歌詞も正確に認識
背景音楽が流れていても、ラップや歌唱部分をしっかり文字起こし。音楽コンテンツの自動字幕化や歌詞抽出に最適です。

 3. 自由な文脈ヒント（コンテキストバイアシング）
ユーザーが任意の「背景テキスト」を提示することで、認識結果をカスタマイズ可能。事前処理不要で、どんな形式でもOK！
キーワードリスト（例：商品名、人名、専門用語）
長文ドキュメント（例：講義資料、脚本、小説）
キーワード＋長文の混合形式
無関係・意味不明なテキスト（認識精度への悪影響はほぼなし）

 4. 言語自動判別＆非音声セグメント排除
11言語を自動判別。無音や環境雑音などの「音声でない部分」を正確に除外し、クリーンな文字起こしを実現。

 5. 複雑な環境でも安定稼働
車内雑音・重いアクセント・複数言語混在（コードスイッチング）など、従来のASRが苦手とするシーンでも高精度を維持。

 🌏 対応言語一覧（単一モデルで全言語対応！）Qwen3-ASR-Flashは、1つのモデルで以下の言語・方言・アクセントを網羅的にサポートします。

 🇨🇳 中国語標準中国語（普通話）
主要方言：四川語、閩南語（ホーロー語）、呉語、広東語（広東話）など

 🇬🇧 英語米国・英国アクセントを含む、多様な地域アクセントに対応

 🌍 その他の言語フランス語、ドイツ語、ロシア語、イタリア語
スペイン語、ポルトガル語、日本語、韓国語、アラビア語

 💡 文脈ヒント（コンテキストバイアシング）とは？「この会話には専門用語が出てくる」「この動画はゲーム実況だから、特定のキャラ名や技名を優先してほしい」——そんな要望に応えるのが、文脈ヒント機能です。
従来のASRでは、キーワードリストを事前に登録する必要がありましたが、Qwen3-ASR-Flashでは、ユーザーが自由にテキストを“投げ込む”だけでOK。形式や長さに制限はありません。
例：化学の講義 → 「ベンゼン環」「エステル化」「モル濃度」などの用語を含む資料を添付

例：eスポーツ実況 → 「ヘッドショット」「ラッシュ」「エコラウンド」などの用語リストを提示
無関係なテキストを混ぜても、通常の認識精度はほとんど低下しません。柔軟で安心な設計です。

 🔮 デモサンプル（一部紹介）※ 以下のデモは、Example2を除き、文脈ヒントなしの単一推論で実行しています。
さまざまな連続雑音の中での音声

『CS:GO』ゲーム実況（※文脈ヒント使用）

英語ラップソング（背景音楽あり）
車内雑音＋強いアクセントの英語
複数言語が混在する会話（コードスイッチング）

大学の化学講義（専門用語多数）
→ 実際の音声サンプルと認識結果は、[公式デモページ]（リンクを挿入）で体験可能です！

 🚀 今後の展望Qwen3-ASR-Flashは、APIサービスとして提供されるため、継続的なアップデートで性能向上・新機能追加を予定しています。
一般認識精度のさらなる向上
文脈ヒント機能の拡張と最適化
新言語・新アクセントの追加対応
より高度なノイズ耐性・リアルタイム処理の強化
研究開発チームは、ユーザーのフィードバックをもとに、より使いやすく、より賢い音声認識を目指して進化を続けていきます。

 ✅ こんな方におすすめ動画・ポッドキャストの自動字幕作成者
多言語対応が必要なグローバル企業
ゲーム・音楽・教育コンテンツ制作者
医療・法律・技術分野の専門用語を扱う現場
雑音環境での音声記録を必要とする研究者・エンジニア

 📣 さあ、あなたの音声を“文字の力”に変えましょう！Qwen3-ASR-Flash — 聞こえるすべてを、正確に、自由に、スマートに文字へ。
今すぐAPIドキュメントをチェックして、あなたのプロジェクトに組み込んでみませんか？
APIドキュメント・サインアップはこちら👉

https://t.co/bB64vHbE1f

🎧 聞こえる音を、正確に、賢く文字に変える

📊 パフォーマンスのハイライト

💎 主な特長

1. 業界トップクラスの認識精度

2. 歌の歌詞も正確に認識

3. 自由な文脈ヒント（コンテキストバイアシング）

4. 言語自動判別＆非音声セグメント排除

5. 複雑な環境でも安定稼働

🌏 対応言語一覧（単一モデルで全言語対応！）

🇨🇳 中国語

🇬🇧 英語

🌍 その他の言語

💡 文脈ヒント（コンテキストバイアシング）とは？

🔮 デモサンプル（一部紹介）

🚀 今後の展望

✅ こんな方におすすめ

📣 さあ、あなたの音声を“文字の力”に変えましょう！

Discussion