🐙

【音声認識モデル】Azure OpenAI Whisper/Azure Speech to Textの違い

2023/11/29に公開

この記事で得られること

本記事では、Azure OpenAI Whisper/Azure Speech to Textのそれぞれの音声認識モデルの何がどう異なるのかを明確にするため、そもそもの違いや速度、精度、料金をベースに比較してきます。
Whisperなどの音声認識モデルを使いたいけれど、どれを使えば良いか分からない人、それぞれの違いがピンときていない人は特に参考になるはずです。
どちらが良い悪いではなく、用途にあった使い方をすることが大事だと思います。どちらを使うかの判断材料として、本記事をご利用いただければと思います。

Azure OpenAI Whisperとは

OpenAI社が提供している音声認識モデル "Whisper" をMicrosoftが提供するAzureに落とし込んだものです。
使われているモデルは一緒ですが、Azureに内包されるためより安心安全な環境で音声認識モデルを利用できます。Azure OpenAI Serviceを介して利用できます。

Azure Speech to Textとは

Azure AI Speechというサービスの中に含まれる音声サービスです。その中でも音声をテキスト化する機能がSpeech to Textで、Whipserモデルが採用されています。Azure AI Speechは以下の3つを主要な機能として提供しています。

  • 音声認識(Speech to Text)
  • 音声合成(Text to Speech)
  • 音声翻訳(Speech Translation)

AzureのWhisperモデルは、Azure OpenAI ServiceもしくはAzure AI Speech経由で使用することができます。

各モデルの精度比較

同じ言葉を発したときに、どのようにテキスト化されるかを表にまとめてみました。
Azure OpenAI WhisperでもAzure Speech To Textでも、3秒程度の音声(30文字程度)のデータでは大きな精度の差は見られませんでした。若干Speech to Textのほうが良いか?くらいの誤差だと思います。
(利用しているモデルがどちらもWhisperなので、そんなに大きく変わらないのかも?)

話者の滑舌や騒音、マイクの性能や話すテーマによるところがあるかもしれませんが。

話した言葉 Azure OpenAI Whisper Azure Speech to Text
こんにちは。私はMicrosoft製品をよく使っています。AzureはMicrosoftが提供しています。 こんにちは 私はマイクロソフト製品をよく使っています Azureはマイクロソフトが提供しています こんにちは。私はマイクロソフトセイキンをよく使っています。 アジュールは、マイクロソフトが提供しています。
高熱があって、吐き気や咳が止まりません。医者に見てもらったらインフルエンザと診断されました。 高熱があって吐き気や咳が止まりません 医者に診てもらったらいい。保健所と診断されました 高熱があって、吐き気や咳が止まりません。一緒に見てもらったらインフルエンザと診断されました。
彼は優秀なので老若男女に愛されています。 これは優秀なので、ろうやく何を言い擦れています。 これは優秀なので、老若男女に愛されています。

各モデルの料金体系

各音声認識モデルを利用する際にかかる費用についてまとめました。
結論からいうと
リアルタイムの場合:Azure OpenAI Whisperのほうが約3倍安い
バッチ処理の場合:どちらもほぼ変わらない
です。

※2023年11月27日時点の価格です。
※1ドル = 149.605円で算出しています。

Azure OpenAI Whisper

Azure OpenAI Whisperの料金体系は非常にシンプルです。

モデル 1時間あたり
Whisper 53.86円

Azure AI Speech(Azure Speech to Text)

今回はSpeech to Textに絞って料金をまとめます。
難しいことをしない限りは、標準もしくはカスタムの料金にのみ注目していただいて問題ないです。

機能 リアルタイムの料金 バッチ処理の料金(v3.2 API以上¹)
標準 1時間あたり149.605円 1時間あたり53.858円
カスタム 1時間あたり179.526円 1時間あたり53.858円
カスタム エンドポイントホスティング: 1時間あたり8.0413円 エンドポイントホスティング: N/A
Custom Speechトレーニング コンピューティング時間あたり 1496.050円 同左
強化されたアドオン機能 (継続的な言語識別、ダイアライゼーション、発音評価) 機能ごと時間あたり44.882円 継続的な言語識別、ダイアライゼーション が含まれている²
文字起こしのマルチチャネルオーディオ (プレビュー) 1時間あたり 314.18円³ N/A

¹この新しい価格を利用するには、新しい音声テキスト変換 REST API V3.2 プレビューを使用する必要があります。新しい v3.2 プレビュー API の使用に関する情報については、「バッチ文字起こしを作成する - Speech Service - Azure AI サービス | Microsoft Learn」を参照してください。

²拡張アドオン機能は、すべての Batch API バージョンの Batch 価格に含まれています。

³これにはパブリック プレビュー価格が適用されます。一般提供価格は一般提供の際に発表されます。

Azure OpenAI Service/Azure AI Speechどっちを使えばいいの?

Whisperモデルの最適なシナリオは状況により異なります。以下を参考に、ご自身の状況に最も適したモデルを選んでみてください。

Azure OpenAI Service/Azure AI Speech早見表

項目 Azure OpenAI Whipser Azure AI Speech
処理速度
英語翻訳
サポートされているファイル形式 mp3 / mp4 / mpweg / mpga / m4a / wav / webm mp3 / wav / ogg
音声ファイルの最大サイズ 25MB 1GB
リアルタイムの書き起こし
話者識別

Azure OpenAI Serciveでの最適なシナリオ

  • 音声ファイルを一度に一つずつすばやい文字起こしをしたい(処理速度を重要視したい)
  • 他の言語の音声を英語に翻訳したい
  • 出力をガイドするためのプロンプトをモデルに提供したい
  • サポートされているファイル形式が次の形式である
    mp3 / mp4 / mpweg / mpga / m4a / wav / webm

Azure AI Speechでの最適なシナリオ

  • 25 MB (最大 1 GB) を超えるファイルの文字起こしが必要
    ※Azure OpenAI の Whisper モデルのファイル サイズの制限は 25 MB です。
  • 音声ファイルの大きなバッチの文字起こしをしたい
  • 話者を識別したい
    ※Azure OpenAI Serviceを介したWhisperモデルでは、話者識別はサポートされていません。
  • ワードレベルのタイムスタンプが必要
  • サポートされているファイル形式が次の形式である
    mp3 / wav / ogg
  • シナリオの精度を向上させるための Whisper の基本モデルのカスタマイズをしたい
    ※執筆時2023年11月26日はまだ未公開。近日公開予定とのこと。
ヘッドウォータース

Discussion