クラウドの日本語TTSをいろいろ試す

に公開

知りたかったこと

どこのサービスが早くて、ロボット感のない音声が使えるのかを知りたかった。

今回の比較対象

  • Gemini (gemini-2.5-flash-preview-tts)
  • OpenAI (tts-1)
  • OpenAI (gpt-4o-mini-tts)
  • Azure (Speech Service, 非OpenAI版)
  • にじボイス

AzureはOpenAIのTTSも利用可能だが、本家OpenAIも比較対象に入れてるので今回は対象外にしてます。
Gemini、Azure、にじボイスは無料枠内での実施です。

もし他にもおすすめのサービスがあれば教えてください。

比較したセリフ

  • こんにちは(5文字)
  • お、お兄ちゃんのためじゃないんだからね!!(21文字)
  • おほほ、庶民って本当に愉快ですわね。跪いてお願いすれば、考えてあげなくもなくってよ?(42文字)

3つ目のセリフはGPTに考えてもらった。

応答性能の比較

試行回数少ないですがそれぞれ3回ずつ計測。(個人でのお試しなので…という言い訳)
ブラウザから直でサービスを呼び出してます。
平均値は以下でした。単位は秒です。

文字数 Gemini OpenAI(tts) OpenAI(gpt) Azure にじボイス
5文字 2.6 1.4 1.2 0.26 1.6
21文字 3.9 2.0 1.4 0.46 1.8
42文字 8.6 2.6 2.0 0.36 2.0

文字数との相関関係はこんな感じです。

Azureの応答速度が驚異的でした。
逆にGeminiはかなり遅いのでリアルタイムでの用途はまだ無理そうです。

精度の比較

人っぽさの主観評価です。
tts-1版のOpenAIはgpt版に劣るものと思っているので、tts-1版OpenAIは除外しました。

サービス 主観評価
Gemini ☆★★★
OpenAI(gpt) ☆☆★★
Azure ☆☆☆★
にじボイス ★★★★

Geminiは結構良いのですが「お兄ちゃん」のセリフにおいて、にじボイスと差があるので減点にしました。あと、人っぽくはあるのですが、アナウンサーや司会の人みたいなプロの声という感じ。
(それを言うと、にじボイスは声優感が強いのでしょうが)

たぶん、OpenAIは英語だと良いのでしょうが日本語だと「日本語が喋れる外国人」にしか聞こえないので評価を下げています。

Azureはロボット感がとても強いです。

ちなみに、このセリフのなかで読み間違ってたのはGeminiだけで「跪いて」を「ひざむいて」と読んでました。
精神面だけでなく、物理的に痛い目にあわせようとする悪役令嬢です。

価格

比較表を書きたいところなのですが、単純に比較できないし、今後変わることもあると思うのでそれぞれのリンクを載せます。
現状、Gemini / OpenAIがToken数課金で、Azure / にじボイスが文字数課金で、単純なAPI利用料としてはにじボイスが割高な気がします。実際にはシステム構成に合わせて導入するのでAPI利用料だけでは決まらないかもですが。

まとめ

主観的な評価としては、にじボイスが良いけどお高め。応答速度優先ならAzure。
OpenAI使うよりはGeminiの方が日本人としては自然なんだけど、リアルタイムの利用には耐えれない。

他にもおすすめのサービスがあれば教えてください。


ローカルで動かすTTSについては過去記事があります。
https://zenn.dev/megyo9/articles/192bf143acb106

Discussion