🎶

AivisSpeech-Engine を Google Colaboratory のGPUで動かす

2024/12/02に公開

はじめに

AivisSpeechという興味深い合成エンジンを使ってみたく、CUDAに対応しているとのことでColabで動かないかなと思い、検証してみました。探しましたが、Colabで動かしている人はまだいなさそう?です。

AivisSpeechとは

AivisSpeechというAivisSpeech Engine は、VOICEVOX ENGINE をベースにした、日本語音声合成エンジンです。
日本語音声合成ソフトウェアの AivisSpeech に組み込まれており、かんたんに感情豊かな音声を生成できます。by README
公式サイト
https://aivis-project.com/
AivisSpeechのgithubリポジトリ
https://github.com/Aivis-Project/AivisSpeech
AivisSpeech-Engineのgithubリポジトリ
https://github.com/Aivis-Project/AivisSpeech-Engine

実装

AivisSpeechはGUIエディタで合成音声を作成できますが、
Linuxには対応していないっぽいです。

AivisSpeech EngineはCUIで利用できる音声合成エンジンという位置付け?
こちらはLinuxでも対応しているということで、これを使用します。

実際のコードを以下に公開します
https://colab.research.google.com/drive/1lYl9koaqwzKyaw2ztDhcbLsCFULNNKHx?usp=sharing
詳細のコマンドの解説はColabに書いたので、これを実装するのに苦戦したポイントを書きます。

  • colab上ではdockerは使えない
    知らなかったのですが、colabではdockerが使えないようです。udockerというdockerモドキは使えるのですが、gpuオプションは使えないようです。
    そのため、公式推奨のdockerイメージは使えませんでした。
    (cpu-optionのイメージは使えるのかなと思いudockerで試してみましたが、moduleが読み込めないエラーが発生して何故かダメでした)

  • 読み込ませる文の最後には改行を入れてはならない
    VOICEVOXを使っている人には当たり前なのかもしれませんが、読み込ませる文の最後に改行コードが入っていると、文字数エラー?が起きて処理されないです。これに気付くまで時間がかかってしまいました。

おわりに

色々応用ができそうでもう少しいじって行きたいです。
colabは無料でGPUを貸し出してるので、ガンガンGoogleのリソースを使っていきましょう!!

Discussion