👋

ローカルで動かせる日本語TTSをいろいろ試す

2025/04/30に公開

スクラップで試してましたが溜まってきたのでTTSに関する部分を整理。
https://zenn.dev/megyo9/scraps/164aa5b73814d6

 モチベーション私の主観評価でしかないのですが、OpenAIのTTSは「日本語を喋れる外国人」という感が強いし声が若くない、大手パブクラのTTSはロボット感が強い。

にじボイスとかのサービスは素晴らしいけどお金がかかる（OpenAIやパブクラもだけど）。

VOICEVOXのような素晴らしいものもあるが、もうちょっと品質良いものが欲しい。

 前提自分が試している目的がAIアバター、ゲーム、アニメの制作を目的としているので、その目的に対して私の主観で評価してます。
リアルタイム性は評価してません。

 試したもの

TTS
確認時期
評価


Style-Bert-VITS2
2024/07/05
良い

Fish Speech
2025/02/19
良い

hexgrad/Kokoro-82M
2025/04/05
ダメ

OuteAI/Llama-OuteTTS-1.0-1B
2025/04/15
ダメ

2121-8/canary-tts-0.5b
2025/04/29
悪くはない

2121-8/japanese-parler-tts-mini
2025/04/29
ダメ

Respair/Tsukasa_Speech
2025/04/29
とても良い

Kimi-Audioも試したけどメモリが足りなくて動かせなかった。

 環境構築方法冒頭にあげたスクラップに書いています。

「Bert」とか「Fish」とかで検索してください。

 生成結果Zennには音声をあげれないのでTwitterにあげたものを参照。

GPT-4oで画像生成→FramePackで動画化して適当に映像つけてます。

 Style-Bert-VITS2そこそこの自然さで結構早く動くし、トレーニングもGUIで出来てとても簡単。

GitHubも日本語で親切。

 Fish Speechそこそこの自然さで動きます。

サンプル通りだと毎回ランダムで話者が選ばれるので、リファレンスをつけて動かします。

末っ子の声をリファレンスにしたら可愛すぎて悶絶しました。

ただ、Fish Audioを見ると明らかに無許可の音声がアップされているので嫌な気持ちになる。

 Kokoro-82M日本語はイマイチっぽいです。

 Llama-OuteTTS-1.0-1B日本語はイマイチっぽいです。

 canary-tts-0.5bサンプルプログラム通りに動かしたつもりだけど昔のアニメの音声みたいな音質。

嫌いじゃないんだけど。

sample_rateのパラメータをあげれば良いのかと思ったけど、あげたら早送りになった。

 japanese-parler-tts-miniHugging Faceのサンプルを見る限りは話者を変えれそうなんだけど、

プロンプトを変えてもあまり変わらない。

 Tsukasa_Speech主にゲームやノベルからのデータらしいのでアニメ感が強い。

サンプルがそのままだと動かなかったり、いろいろ未整備感はあるけど遊べる。

発展を期待してます。

 おわりこんなのもあるよというのがあれば教えてくださいー。

 続きhttps://zenn.dev/megyo9/articles/b273c4c85ad451

TTS	確認時期	評価
Style-Bert-VITS2	2024/07/05	良い
Fish Speech	2025/02/19	良い
hexgrad/Kokoro-82M	2025/04/05	ダメ
OuteAI/Llama-OuteTTS-1.0-1B	2025/04/15	ダメ
2121-8/canary-tts-0.5b	2025/04/29	悪くはない
2121-8/japanese-parler-tts-mini	2025/04/29	ダメ
Respair/Tsukasa_Speech	2025/04/29	とても良い

Discussion

masatatsu8

Avis Speech とかどうでしょうか？　VOICEVOX 互換のAPIで操作できますよ。

https://aivis-project.com/

Megumu Ueda

コメントありがとうございます！
自分のPCを見返したらAivisSpeechを試した痕跡がありました。記憶がぼんやりしてますがモデルが少なかったから、あまり使わなかったのかな・・・
あと、勝手にVOICEVOXとエンジンのベースは同じかと思い込んでたのですが全然違うんですね（Style-Vert-VITS2）
また改めて触ってみようと思います。