🗣️
Fish Speech浅煎り

2024/09/29に公開
新進気鋭のテキスト読み上げ・音声合成ツールであるFish Speechを見つけました。

さっそく試してみたので報告します。
検証日時は 2024-09-29

環境は Ubuntu 24.04 amd64 です。
GitHub https://github.com/fishaudio/fish-speech

ドキュメント https://speech.fish.audio/

デモ音声(YouTube) https://www.youtube.com/watch?v=Ghc8cJdQyKQ

公式ページのサンプル https://speech.fish.audio/ja/samples/

 特徴ウェブUIにより簡単に使える
動作要件はOSがLinuxまたはUbuntu。GPUメモリが4GB必要（音声合成に。音声の学習には8GB必要とのこと）
かなりいい感じに音声合成してくれる。音声は（デモでは）男性・女性などある（らしい）
対応する言語は、英語、中国語、日本語、ポルトガル語（らしい）
15秒程度の音声を入力することで、学習して声真似ができる（らしい）
なお、2024-09-29現在、ライセンスは CC-BY-NC-SA-4.0 なので、非営利のみ利用可能です。

 Ubuntu 24.04でのインストールいつもどおりの手順で、必要な依存のインストール、GitHubリポジトリのクローン、Python仮想環境の作成とライブラリ及びFish Speech本体のインストール、モデルのダウンロードとなります。
sudo apt install libsox-dev ffmpeg
git clone https://github.com/fishaudio/fish-speech
cd fish-speech/
python3 -m venv venv; venv/bin/pip install wheel
venv/bin/pip install torch torchvision torchaudio
venv/bin/pip install -e .[stable]
venv/bin/huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4

 ツールの利用ツールはtools/webui.pyなので、Python仮想環境のpythonにより実行します。
venv/bin/python tools/webui.py
ツールを起動すると、次のようにhttp://127.0.0.1:7860を開くようにメッセージが出るので、Webブラウザを起動してください。
$ venv/bin/python tools/webui.py
...(省略)...
Warming up done, launching the web UI...
Running on local URL:  http://127.0.0.1:7860
後は、「入力テキスト」にテキストを書き込んで、「生成」ボタンを押すと読み上げ音声が生成されます。

 感想試してみたところ、流暢な日本語音声が生成されて驚きました。
現状では非商用のライセンスながら、簡単に高品質な音声合成ができるツールの登場で、期待大です。
Discussion

ログインするとコメントできます