AivisSpeech-Engine を Google Colaboratory のGPUで動かす
はじめに
AivisSpeechという興味深い合成エンジンを使ってみたく、CUDAに対応しているとのことでColabで動かないかなと思い、検証してみました。探しましたが、Colabで動かしている人はまだいなさそう?です。
AivisSpeechとは
AivisSpeechというAivisSpeech Engine は、VOICEVOX ENGINE をベースにした、日本語音声合成エンジンです。
日本語音声合成ソフトウェアの AivisSpeech に組み込まれており、かんたんに感情豊かな音声を生成できます。by README
公式サイト
AivisSpeechのgithubリポジトリ
AivisSpeech-Engineのgithubリポジトリ
実装
AivisSpeechはGUIエディタで合成音声を作成できますが、
Linuxには対応していないっぽいです。
AivisSpeech EngineはCUIで利用できる音声合成エンジンという位置付け?
こちらはLinuxでも対応しているということで、これを使用します。
実際のコードを以下に公開します
詳細のコマンドの解説はColabに書いたので、これを実装するのに苦戦したポイントを書きます。-
colab上ではdockerは使えない
知らなかったのですが、colabではdockerが使えないようです。udockerというdockerモドキは使えるのですが、gpuオプションは使えないようです。
そのため、公式推奨のdockerイメージは使えませんでした。
(cpu-optionのイメージは使えるのかなと思いudockerで試してみましたが、moduleが読み込めないエラーが発生して何故かダメでした) -
読み込ませる文の最後には改行を入れてはならない
VOICEVOXを使っている人には当たり前なのかもしれませんが、読み込ませる文の最後に改行コードが入っていると、文字数エラー?が起きて処理されないです。これに気付くまで時間がかかってしまいました。
おわりに
色々応用ができそうでもう少しいじって行きたいです。
colabは無料でGPUを貸し出してるので、ガンガンGoogleのリソースを使っていきましょう!!
Discussion