🕌

NeMo ASRってなんだ?NVIDIAが本気で作った音声認識フレームワークの全貌

に公開

この記事の目的

「Whisperは知ってるけど、NeMo ASRって何?」という人向けに、NVIDIAが開発した音声認識フレームワーク「NeMo ASR」について、その特徴、主要モデル、そして実際のベンチマーク比較まで徹底解説する。

対象読者

  • 音声認識AIに興味があるエンジニア
  • Whisper以外の選択肢を探している開発者
  • 文字起こしサービスの技術選定を行う立場の人

到達目標

  • NeMo ASRとは何かを理解する
  • Parakeet、Canaryなど主要モデルの特徴を把握する
  • Whisperとの具体的な比較データを知る

TL;DR

  • NeMo ASRはNVIDIAが開発したオープンソースの音声認識フレームワーク
  • 主力モデル「Parakeet TDT 0.6B v2」はHugging Face Open ASR Leaderboardで1位を獲得
  • Whisper Large v3より高精度かつ最大50倍高速
  • 日本語特化モデル「ReazonSpeech-NeMo」はWhisperを上回る精度と速度を両立

NeMo ASRとは何か

NeMo(Neural Modules)は、NVIDIAが開発したオープンソースの生成AI開発フレームワークだ。その中でもASR(Automatic Speech Recognition:自動音声認識)モジュールは、音声をテキストに変換する機能を提供する。

公式の説明を引用しよう。

Automatic Speech Recognition (ASR), also known as Speech To Text (STT), refers to the problem of automatically transcribing spoken language. You can use NeMo to transcribe speech using open-sourced pretrained models in 14+ languages, or train your own ASR models.

(自動音声認識(ASR)は、Speech To Text(STT)とも呼ばれ、話された言語を自動的に文字起こしする問題を指す。NeMoを使用すると、14以上の言語のオープンソース学習済みモデルを使って音声を文字起こししたり、独自のASRモデルをトレーニングしたりできる。)

出典: NVIDIA NeMo Framework User Guide

要するに、NVIDIAがGPU最適化をガチガチに施した、研究者・開発者向けの本気の音声認識ツールキットだ。

なぜNeMo ASRが注目されるのか

2022年にOpenAIがWhisperを発表して以来、音声認識の世界は大きく変わった。しかし、Whisperが万能かというとそうでもない。NeMo ASRが注目される理由は主に3つある。

1. 圧倒的な推論速度

NVIDIAは推論最適化の鬼だ。CUDA Graphs、bfloat16への自動キャスト、ラベルループアルゴリズムなど、ありとあらゆる最適化を投入して、最大10倍の高速化を実現している。

2. エンタープライズ向けの設計

NVIDIA Rivaという商用デプロイメントプラットフォームと連携できる。本番環境でのスケーラビリティ、リアルタイムストリーミング、Kubernetes対応など、企業が求める機能が揃っている。

3. モデルアーキテクチャの多様性

CTC、RNN-T、TDT、AEDなど、複数のデコーダアーキテクチャをサポートしている。用途に応じて精度と速度のトレードオフを選べる。

主力モデルラインナップ

NeMo ASRには大きく分けて2つのモデルファミリーがある。

Parakeetファミリー:英語特化の高速モデル

Parakeetは、NVIDIAとSuno.aiが共同開発した英語音声認識モデルだ。

モデル名 パラメータ数 特徴
Parakeet-TDT-0.6B v2 6億 速度と精度のバランス、リーダーボード1位
Parakeet-TDT-0.6B v3 6億 25言語対応、多言語版
Parakeet-RNNT-1.1B 11億 より高精度だが若干遅い
Parakeet-CTC-1.1B 11億 超高速(RTFx 2,728)だが精度は控えめ

Parakeetの特徴は「Fast Conformer」エンコーダだ。従来のConformerを最適化し、8倍のダウンサンプリングを実現。これにより計算効率が約3倍、メモリ効率が約4倍向上している。

Canaryファミリー:多言語対応のマルチタスクモデル

Canaryは多言語音声認識と翻訳を同時にこなすマルチタスクモデルだ。

モデル名 パラメータ数 対応言語 特徴
Canary-1B 10億 英独仏西 初代マルチリンガルモデル
Canary-1B-Flash 10億 英独仏西 推論速度最適化版
Canary-1B v2 10億 25言語 言語拡張版
Canary Qwen 2.5B 25億 英語 LLMデコーダ搭載、最高精度

特にCanary Qwen 2.5Bは、FastConformerエンコーダにQwen3-1.7BというLLMデコーダを組み合わせた「SALM(Speech-Augmented Language Model)」アーキテクチャを採用。単なる文字起こしだけでなく、要約や質問応答も可能という野心的なモデルだ。

ベンチマーク比較:Whisperとの真剣勝負

さて、本題のベンチマーク比較に入ろう。Hugging FaceとNVIDIA、ケンブリッジ大学、Mistral AIの共同研究として発表された「Open ASR Leaderboard」のデータを中心に見ていく。

英語音声認識:Open ASR Leaderboard

2025年10月時点のリーダーボードデータ(論文 arXiv:2510.06961より)。

モデル 平均WER (%) RTFx オープンソース
NVIDIA Canary Qwen 2.5B 5.63 418 Yes
IBM Granite Speech 3.3 8B 5.85 31 Yes
NVIDIA Parakeet TDT 0.6B v2 6.05 3,386 Yes
NVIDIA Canary 1B Flash 6.52 1,000+ Yes
OpenAI Whisper Large v3 7.01 68 Yes
NVIDIA Parakeet CTC 1.1B 7.70 2,728 Yes

WER(Word Error Rate)は低いほど良い。RTFx(Inverse Real-Time Factor)は高いほど高速で、100なら1分の音声を0.6秒で処理できることを意味する。

注目すべきは、NVIDIA Canary Qwen 2.5BがWhisper Large v3より約20%高精度で、Parakeet TDT 0.6B v2は約50倍高速という点だ。しかも両方オープンソース。

多言語性能:欧州5言語比較

同じくOpen ASR Leaderboardの多言語評価結果。

モデル ドイツ語 フランス語 イタリア語 スペイン語 ポルトガル語
Microsoft Phi 4 Multimodal 4.50 5.13 4.80 3.59 5.15
NVIDIA Canary 1B v2 4.96 4.86 5.66 3.22 6.23
OpenAI Whisper Large v3 4.97 6.59 5.14 3.32 4.38
NVIDIA Parakeet TDT 0.6B v3 4.90 5.38 5.58 3.72 5.95

Whisperは多言語では健闘している。ポルトガル語では最強だ。一方、NeMoモデルは言語によって得意不得意がある。これは「特化 vs 汎用」のトレードオフだろう。

日本語性能:ReazonSpeech-NeMoの衝撃

日本語音声認識では、興味深いベンチマーク結果がある。東京のReazon Holdingsが開発した「ReazonSpeech-NeMo v2」モデルだ。

JSUT-book(1時間の日本語朗読音声)データセットでの比較(GitHub Discussion #8473より):

モデル CER (%) 推論速度
ReazonSpeech-NeMo v2 最も低い Whisper Tinyと同等
Whisper Large v3 高い 遅い
Whisper Large v2 高い 遅い
Whisper Large v1 高い 遅い

CER(Character Error Rate:文字誤り率)で評価すると、Fast Conformerベースのモデルは、Whisper v1/v2/v3すべてより高精度で、しかもWhisper Tinyと同等の速度という驚異的な結果だ。

ReazonSpeech-NeMo v2は、ReazonSpeech v2.0コーパス(日本のテレビ放送から収集した大規模音声データ)で学習されており、Fast Conformer + RNN-Tアーキテクチャを採用。総パラメータ数は6.19億で、数時間の長時間音声にも対応できる。

中国語性能

中国語に関しては、OWSMv3.1(Open Whisper-Style Speech Model)の論文(arXiv:2401.16658)が参考になる。

when there is a sufficient amount of data (e.g., Chinese and Japanese), OWSM v3.1 achieves strong performance and outperforms Whisper.

(中国語や日本語のように十分なデータがある場合、OWSM v3.1は強力な性能を発揮し、Whisperを上回る。)

AISHELL(中国語音声データセット)での評価では、aiOlaのJargonicモデルがWhisper Large v3のCER 8.9%に対して4.7%を達成するなど、Whisper以外の選択肢も台頭している。

実際に使ってみよう:最小構成コード

NeMo ASRの導入は驚くほど簡単だ。

import nemo.collections.asr as nemo_asr

# モデルのロード(初回は自動ダウンロード)
asr_model = nemo_asr.models.ASRModel.from_pretrained("nvidia/parakeet-tdt-0.6b-v2")

# 音声ファイルを文字起こし
transcript = asr_model.transcribe(["path/to/audio_file.wav"])[0].text
print(transcript)

たった5行。Whisperと変わらない手軽さだ。

タイムスタンプ付きの文字起こしも可能:

from omegaconf import OmegaConf, open_dict

# タイムスタンプ設定を有効化
decoding_cfg = asr_model.cfg.decoding
with open_dict(decoding_cfg):
    decoding_cfg.preserve_alignments = True
    decoding_cfg.compute_timestamps = True
asr_model.change_decoding_strategy(decoding_cfg)

# タイムスタンプ付きで文字起こし
hypotheses = asr_model.transcribe(["audio.wav"], return_hypotheses=True)
timestamp_dict = hypotheses[0].timestamp

どのモデルを選ぶべきか

用途別の推奨モデルをまとめておこう。

ユースケース 推奨モデル 理由
英語、最高精度が必要 Canary Qwen 2.5B WER 5.63%でリーダーボード1位
英語、リアルタイム処理 Parakeet TDT 0.6B v2 RTFx 3,386の超高速
多言語対応が必要 Whisper Large v3 または Canary 1B v2 99言語 vs 25言語
日本語特化 ReazonSpeech-NeMo v2 日本語に最適化、長時間対応
エッジデバイス Parakeet CTC系 軽量で高速
バッチ処理(大量の音声) Parakeet CTC 1.1B コスト効率最高

注意点とトレードオフ

万能なモデルは存在しない。NeMo ASRにも弱点がある。

1. 多言語の網羅性ではWhisperに劣る

Whisperは99言語、NeMoのCanary v2は25言語。マイナー言語対応ならWhisper一択。

2. GPU依存度が高い

NVIDIAのGPU最適化の恩恵を最大限受けるには、当然NVIDIAのGPUが必要。CPUでも動くが、速度面の優位性は失われる。

3. コミュニティの規模

Whisperのエコシステムは巨大だ。Webアプリ、Reactフック、各種ラッパーなど、サードパーティツールの充実度ではまだ差がある。

まとめ

NeMo ASRは、NVIDIAが本気で作った音声認識フレームワークだ。

  • 精度面:Canary Qwen 2.5BがOpen ASR Leaderboard 1位
  • 速度面:Parakeet TDT 0.6B v2はWhisperの約50倍高速
  • 日本語:ReazonSpeech-NeMo v2がWhisperを精度・速度両面で凌駕
  • 使いやすさ:Whisperと同等の5行コードで動作

「Whisper一択」の時代は終わった。用途に応じて最適なモデルを選ぶ時代が来ている。特にプロダクション環境での大量処理や、日本語特化のユースケースでは、NeMo ASRが有力な選択肢になるだろう。


参考資料

Discussion