NeMo ASRってなんだ?NVIDIAが本気で作った音声認識フレームワークの全貌
この記事の目的
「Whisperは知ってるけど、NeMo ASRって何?」という人向けに、NVIDIAが開発した音声認識フレームワーク「NeMo ASR」について、その特徴、主要モデル、そして実際のベンチマーク比較まで徹底解説する。
対象読者
- 音声認識AIに興味があるエンジニア
- Whisper以外の選択肢を探している開発者
- 文字起こしサービスの技術選定を行う立場の人
到達目標
- NeMo ASRとは何かを理解する
- Parakeet、Canaryなど主要モデルの特徴を把握する
- Whisperとの具体的な比較データを知る
TL;DR
- NeMo ASRはNVIDIAが開発したオープンソースの音声認識フレームワーク
- 主力モデル「Parakeet TDT 0.6B v2」はHugging Face Open ASR Leaderboardで1位を獲得
- Whisper Large v3より高精度かつ最大50倍高速
- 日本語特化モデル「ReazonSpeech-NeMo」はWhisperを上回る精度と速度を両立
NeMo ASRとは何か
NeMo(Neural Modules)は、NVIDIAが開発したオープンソースの生成AI開発フレームワークだ。その中でもASR(Automatic Speech Recognition:自動音声認識)モジュールは、音声をテキストに変換する機能を提供する。
公式の説明を引用しよう。
Automatic Speech Recognition (ASR), also known as Speech To Text (STT), refers to the problem of automatically transcribing spoken language. You can use NeMo to transcribe speech using open-sourced pretrained models in 14+ languages, or train your own ASR models.
(自動音声認識(ASR)は、Speech To Text(STT)とも呼ばれ、話された言語を自動的に文字起こしする問題を指す。NeMoを使用すると、14以上の言語のオープンソース学習済みモデルを使って音声を文字起こししたり、独自のASRモデルをトレーニングしたりできる。)
出典: NVIDIA NeMo Framework User Guide
要するに、NVIDIAがGPU最適化をガチガチに施した、研究者・開発者向けの本気の音声認識ツールキットだ。
なぜNeMo ASRが注目されるのか
2022年にOpenAIがWhisperを発表して以来、音声認識の世界は大きく変わった。しかし、Whisperが万能かというとそうでもない。NeMo ASRが注目される理由は主に3つある。
1. 圧倒的な推論速度
NVIDIAは推論最適化の鬼だ。CUDA Graphs、bfloat16への自動キャスト、ラベルループアルゴリズムなど、ありとあらゆる最適化を投入して、最大10倍の高速化を実現している。
2. エンタープライズ向けの設計
NVIDIA Rivaという商用デプロイメントプラットフォームと連携できる。本番環境でのスケーラビリティ、リアルタイムストリーミング、Kubernetes対応など、企業が求める機能が揃っている。
3. モデルアーキテクチャの多様性
CTC、RNN-T、TDT、AEDなど、複数のデコーダアーキテクチャをサポートしている。用途に応じて精度と速度のトレードオフを選べる。
主力モデルラインナップ
NeMo ASRには大きく分けて2つのモデルファミリーがある。
Parakeetファミリー:英語特化の高速モデル
Parakeetは、NVIDIAとSuno.aiが共同開発した英語音声認識モデルだ。
| モデル名 | パラメータ数 | 特徴 |
|---|---|---|
| Parakeet-TDT-0.6B v2 | 6億 | 速度と精度のバランス、リーダーボード1位 |
| Parakeet-TDT-0.6B v3 | 6億 | 25言語対応、多言語版 |
| Parakeet-RNNT-1.1B | 11億 | より高精度だが若干遅い |
| Parakeet-CTC-1.1B | 11億 | 超高速(RTFx 2,728)だが精度は控えめ |
Parakeetの特徴は「Fast Conformer」エンコーダだ。従来のConformerを最適化し、8倍のダウンサンプリングを実現。これにより計算効率が約3倍、メモリ効率が約4倍向上している。
Canaryファミリー:多言語対応のマルチタスクモデル
Canaryは多言語音声認識と翻訳を同時にこなすマルチタスクモデルだ。
| モデル名 | パラメータ数 | 対応言語 | 特徴 |
|---|---|---|---|
| Canary-1B | 10億 | 英独仏西 | 初代マルチリンガルモデル |
| Canary-1B-Flash | 10億 | 英独仏西 | 推論速度最適化版 |
| Canary-1B v2 | 10億 | 25言語 | 言語拡張版 |
| Canary Qwen 2.5B | 25億 | 英語 | LLMデコーダ搭載、最高精度 |
特にCanary Qwen 2.5Bは、FastConformerエンコーダにQwen3-1.7BというLLMデコーダを組み合わせた「SALM(Speech-Augmented Language Model)」アーキテクチャを採用。単なる文字起こしだけでなく、要約や質問応答も可能という野心的なモデルだ。
ベンチマーク比較:Whisperとの真剣勝負
さて、本題のベンチマーク比較に入ろう。Hugging FaceとNVIDIA、ケンブリッジ大学、Mistral AIの共同研究として発表された「Open ASR Leaderboard」のデータを中心に見ていく。
英語音声認識:Open ASR Leaderboard
2025年10月時点のリーダーボードデータ(論文 arXiv:2510.06961より)。
| モデル | 平均WER (%) | RTFx | オープンソース |
|---|---|---|---|
| NVIDIA Canary Qwen 2.5B | 5.63 | 418 | Yes |
| IBM Granite Speech 3.3 8B | 5.85 | 31 | Yes |
| NVIDIA Parakeet TDT 0.6B v2 | 6.05 | 3,386 | Yes |
| NVIDIA Canary 1B Flash | 6.52 | 1,000+ | Yes |
| OpenAI Whisper Large v3 | 7.01 | 68 | Yes |
| NVIDIA Parakeet CTC 1.1B | 7.70 | 2,728 | Yes |
WER(Word Error Rate)は低いほど良い。RTFx(Inverse Real-Time Factor)は高いほど高速で、100なら1分の音声を0.6秒で処理できることを意味する。
注目すべきは、NVIDIA Canary Qwen 2.5BがWhisper Large v3より約20%高精度で、Parakeet TDT 0.6B v2は約50倍高速という点だ。しかも両方オープンソース。
多言語性能:欧州5言語比較
同じくOpen ASR Leaderboardの多言語評価結果。
| モデル | ドイツ語 | フランス語 | イタリア語 | スペイン語 | ポルトガル語 |
|---|---|---|---|---|---|
| Microsoft Phi 4 Multimodal | 4.50 | 5.13 | 4.80 | 3.59 | 5.15 |
| NVIDIA Canary 1B v2 | 4.96 | 4.86 | 5.66 | 3.22 | 6.23 |
| OpenAI Whisper Large v3 | 4.97 | 6.59 | 5.14 | 3.32 | 4.38 |
| NVIDIA Parakeet TDT 0.6B v3 | 4.90 | 5.38 | 5.58 | 3.72 | 5.95 |
Whisperは多言語では健闘している。ポルトガル語では最強だ。一方、NeMoモデルは言語によって得意不得意がある。これは「特化 vs 汎用」のトレードオフだろう。
日本語性能:ReazonSpeech-NeMoの衝撃
日本語音声認識では、興味深いベンチマーク結果がある。東京のReazon Holdingsが開発した「ReazonSpeech-NeMo v2」モデルだ。
JSUT-book(1時間の日本語朗読音声)データセットでの比較(GitHub Discussion #8473より):
| モデル | CER (%) | 推論速度 |
|---|---|---|
| ReazonSpeech-NeMo v2 | 最も低い | Whisper Tinyと同等 |
| Whisper Large v3 | 高い | 遅い |
| Whisper Large v2 | 高い | 遅い |
| Whisper Large v1 | 高い | 遅い |
CER(Character Error Rate:文字誤り率)で評価すると、Fast Conformerベースのモデルは、Whisper v1/v2/v3すべてより高精度で、しかもWhisper Tinyと同等の速度という驚異的な結果だ。
ReazonSpeech-NeMo v2は、ReazonSpeech v2.0コーパス(日本のテレビ放送から収集した大規模音声データ)で学習されており、Fast Conformer + RNN-Tアーキテクチャを採用。総パラメータ数は6.19億で、数時間の長時間音声にも対応できる。
中国語性能
中国語に関しては、OWSMv3.1(Open Whisper-Style Speech Model)の論文(arXiv:2401.16658)が参考になる。
when there is a sufficient amount of data (e.g., Chinese and Japanese), OWSM v3.1 achieves strong performance and outperforms Whisper.
(中国語や日本語のように十分なデータがある場合、OWSM v3.1は強力な性能を発揮し、Whisperを上回る。)
AISHELL(中国語音声データセット)での評価では、aiOlaのJargonicモデルがWhisper Large v3のCER 8.9%に対して4.7%を達成するなど、Whisper以外の選択肢も台頭している。
実際に使ってみよう:最小構成コード
NeMo ASRの導入は驚くほど簡単だ。
import nemo.collections.asr as nemo_asr
# モデルのロード(初回は自動ダウンロード)
asr_model = nemo_asr.models.ASRModel.from_pretrained("nvidia/parakeet-tdt-0.6b-v2")
# 音声ファイルを文字起こし
transcript = asr_model.transcribe(["path/to/audio_file.wav"])[0].text
print(transcript)
たった5行。Whisperと変わらない手軽さだ。
タイムスタンプ付きの文字起こしも可能:
from omegaconf import OmegaConf, open_dict
# タイムスタンプ設定を有効化
decoding_cfg = asr_model.cfg.decoding
with open_dict(decoding_cfg):
decoding_cfg.preserve_alignments = True
decoding_cfg.compute_timestamps = True
asr_model.change_decoding_strategy(decoding_cfg)
# タイムスタンプ付きで文字起こし
hypotheses = asr_model.transcribe(["audio.wav"], return_hypotheses=True)
timestamp_dict = hypotheses[0].timestamp
どのモデルを選ぶべきか
用途別の推奨モデルをまとめておこう。
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| 英語、最高精度が必要 | Canary Qwen 2.5B | WER 5.63%でリーダーボード1位 |
| 英語、リアルタイム処理 | Parakeet TDT 0.6B v2 | RTFx 3,386の超高速 |
| 多言語対応が必要 | Whisper Large v3 または Canary 1B v2 | 99言語 vs 25言語 |
| 日本語特化 | ReazonSpeech-NeMo v2 | 日本語に最適化、長時間対応 |
| エッジデバイス | Parakeet CTC系 | 軽量で高速 |
| バッチ処理(大量の音声) | Parakeet CTC 1.1B | コスト効率最高 |
注意点とトレードオフ
万能なモデルは存在しない。NeMo ASRにも弱点がある。
1. 多言語の網羅性ではWhisperに劣る
Whisperは99言語、NeMoのCanary v2は25言語。マイナー言語対応ならWhisper一択。
2. GPU依存度が高い
NVIDIAのGPU最適化の恩恵を最大限受けるには、当然NVIDIAのGPUが必要。CPUでも動くが、速度面の優位性は失われる。
3. コミュニティの規模
Whisperのエコシステムは巨大だ。Webアプリ、Reactフック、各種ラッパーなど、サードパーティツールの充実度ではまだ差がある。
まとめ
NeMo ASRは、NVIDIAが本気で作った音声認識フレームワークだ。
- 精度面:Canary Qwen 2.5BがOpen ASR Leaderboard 1位
- 速度面:Parakeet TDT 0.6B v2はWhisperの約50倍高速
- 日本語:ReazonSpeech-NeMo v2がWhisperを精度・速度両面で凌駕
- 使いやすさ:Whisperと同等の5行コードで動作
「Whisper一択」の時代は終わった。用途に応じて最適なモデルを選ぶ時代が来ている。特にプロダクション環境での大量処理や、日本語特化のユースケースでは、NeMo ASRが有力な選択肢になるだろう。
参考資料
- NVIDIA NeMo Framework User Guide - ASR
- NVIDIA/NeMo GitHub Repository
- Open ASR Leaderboard (Hugging Face)
- Open ASR Leaderboard 論文 (arXiv:2510.06961)
- Pushing the Boundaries of Speech Recognition with NVIDIA NeMo Parakeet ASR Models
- ReazonSpeech-NeMo v2 (Hugging Face)
- ReazonSpeech GitHub
- NVIDIA NeMo Canary Model (NVIDIA Technical Blog)
- OWSM v3.1 論文 (arXiv:2401.16658)
Discussion