👌

【Azure Speech Service】カスタムニューラル音声のコストに気をつけてほしいという話

2024/10/29に公開

はじめに

AzureのSpeech Service(音声サービス)はライブチャットアバターで人間のようなクローンアバターを開発できたり、人間の声を学習させて、その人の声をAIに発話してもらったりできるAzureリソースです。この人間の声を学習させる機能が「カスタムニューラル音声」という機能です。
リアルタイムでLLMとコミュニケーションを取ることが現実的になってきた昨今、このSpeech Serviceやカスタムニューラル音声などを使って様々なソリューションを開発していくことも増えるでしょう。

今回使ってみて、便利ですごいと感動した一方でお金に関して頭を悩ませた事があるので、そちらを共有します。

このリソースを使ってなにか開発する予定の人は必見です。

これには気を付けて

結論この記事で伝えたいことは以下です。

このカスタムニューラル音声を作成したときは、エンドポイントをそのまま放置せず、削除するか保留するか、どちらかの対応を絶対に!必ず!何があっても!忘れずに!実施してください!

どういうことか

カスタムニューラル音声は、人の声をインプットとして、その人の音声データが学習されたモデルを作成することができます。
学習するときに一定の金額はかかりますが、こちらは公式ドキュメントにも堂々と明記されています。

問題はその後の話です。
カスタムニューラル音声作成後、その音声データを使うためにはエンドポイントを作成する必要があります。(Speech Studio上でポチポチして作成します)
このエンドポイントが作成されたら、それを使って色々組み込めるのですが、このエンドポイントは存在するだけでお金がかかります。従量課金ではありません。

そのことを知らないでいると、1日1万円以上もお金を消費してしまいます。それを防ぐための手段として、

  1. エンドポイントを使わないときは削除し、使うときになったらまた作成する(学習さえ終わっていればポチポチで作れるのでご安心を)
  2. エンドポイントを使わないときは「保留」ボタンを押して接続を切っておく

ということをオススメします。

おわりに

公式ドキュメントにも記載がないわけではないですが、かなり見つけづらいところに書いてあり見落としがちなので、この記事でアラートをあげられたらと思います。(執筆時点の2024年10月29日では、料金一覧の記事の一番下にあるFAQに記載あります)
具体的な価格は以下を参考にしてください。
コストには注意してAzureを活用していきましょう。

https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/speech-services/?msockid=00150144350468b739cf145d346069ee

https://learn.microsoft.com/en-us/azure/ai-services/speech-service/text-to-speech#model-training-and-hosting-time-for-custom-neural-voice

ヘッドウォータース

Discussion