クラウドの日本語TTSをいろいろ試す
知りたかったこと
どこのサービスが早くて、ロボット感のない音声が使えるのかを知りたかった。
今回の比較対象
- Gemini (gemini-2.5-flash-preview-tts)
- OpenAI (tts-1)
- OpenAI (gpt-4o-mini-tts)
- Azure (Speech Service, 非OpenAI版)
- にじボイス
AzureはOpenAIのTTSも利用可能だが、本家OpenAIも比較対象に入れてるので今回は対象外にしてます。
Gemini、Azure、にじボイスは無料枠内での実施です。
もし他にもおすすめのサービスがあれば教えてください。
比較したセリフ
- こんにちは(5文字)
- お、お兄ちゃんのためじゃないんだからね!!(21文字)
- おほほ、庶民って本当に愉快ですわね。跪いてお願いすれば、考えてあげなくもなくってよ?(42文字)
3つ目のセリフはGPTに考えてもらった。
応答性能の比較
試行回数少ないですがそれぞれ3回ずつ計測。(個人でのお試しなので…という言い訳)
ブラウザから直でサービスを呼び出してます。
平均値は以下でした。単位は秒です。
文字数 | Gemini | OpenAI(tts) | OpenAI(gpt) | Azure | にじボイス |
---|---|---|---|---|---|
5文字 | 2.6 | 1.4 | 1.2 | 0.26 | 1.6 |
21文字 | 3.9 | 2.0 | 1.4 | 0.46 | 1.8 |
42文字 | 8.6 | 2.6 | 2.0 | 0.36 | 2.0 |
文字数との相関関係はこんな感じです。
Azureの応答速度が驚異的でした。
逆にGeminiはかなり遅いのでリアルタイムでの用途はまだ無理そうです。
精度の比較
人っぽさの主観評価です。
tts-1版のOpenAIはgpt版に劣るものと思っているので、tts-1版OpenAIは除外しました。
サービス | 主観評価 |
---|---|
Gemini | ☆★★★ |
OpenAI(gpt) | ☆☆★★ |
Azure | ☆☆☆★ |
にじボイス | ★★★★ |
Geminiは結構良いのですが「お兄ちゃん」のセリフにおいて、にじボイスと差があるので減点にしました。あと、人っぽくはあるのですが、アナウンサーや司会の人みたいなプロの声という感じ。
(それを言うと、にじボイスは声優感が強いのでしょうが)
たぶん、OpenAIは英語だと良いのでしょうが日本語だと「日本語が喋れる外国人」にしか聞こえないので評価を下げています。
Azureはロボット感がとても強いです。
ちなみに、このセリフのなかで読み間違ってたのはGeminiだけで「跪いて」を「ひざむいて」と読んでました。
精神面だけでなく、物理的に痛い目にあわせようとする悪役令嬢です。
価格
比較表を書きたいところなのですが、単純に比較できないし、今後変わることもあると思うのでそれぞれのリンクを載せます。
現状、Gemini / OpenAIがToken数課金で、Azure / にじボイスが文字数課金で、単純なAPI利用料としてはにじボイスが割高な気がします。実際にはシステム構成に合わせて導入するのでAPI利用料だけでは決まらないかもですが。
- Gemini: https://ai.google.dev/gemini-api/docs/pricing?utm_source=chatgpt.com&hl=ja#gemini-2.5-flash-preview-tts
- OpenAI: https://platform.openai.com/docs/models/gpt-4o-mini-tts
- Azure: https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/speech-services/
- にじボイス: https://nijivoice.com/
まとめ
主観的な評価としては、にじボイスが良いけどお高め。応答速度優先ならAzure。
OpenAI使うよりはGeminiの方が日本人としては自然なんだけど、リアルタイムの利用には耐えれない。
他にもおすすめのサービスがあれば教えてください。
ローカルで動かすTTSについては過去記事があります。
Discussion