🗣️
Fish Speech浅煎り
新進気鋭のテキスト読み上げ・音声合成ツールであるFish Speechを見つけました。
さっそく試してみたので報告します。
検証日時は 2024-09-29
環境は Ubuntu 24.04 amd64 です。
GitHub https://github.com/fishaudio/fish-speech
ドキュメント https://speech.fish.audio/
デモ音声(YouTube) https://www.youtube.com/watch?v=Ghc8cJdQyKQ
公式ページのサンプル https://speech.fish.audio/ja/samples/
特徴
- ウェブUIにより簡単に使える
- 動作要件はOSがLinuxまたはUbuntu。GPUメモリが4GB必要(音声合成に。音声の学習には8GB必要とのこと)
- かなりいい感じに音声合成してくれる。音声は(デモでは)男性・女性などある(らしい)
- 対応する言語は、英語、中国語、日本語、ポルトガル語(らしい)
- 15秒程度の音声を入力することで、学習して声真似ができる(らしい)
なお、2024-09-29現在、ライセンスは CC-BY-NC-SA-4.0 なので、非営利のみ利用可能です。
Ubuntu 24.04でのインストール
いつもどおりの手順で、必要な依存のインストール、GitHubリポジトリのクローン、Python仮想環境の作成とライブラリ及びFish Speech本体のインストール、モデルのダウンロードとなります。
sudo apt install libsox-dev ffmpeg
git clone https://github.com/fishaudio/fish-speech
cd fish-speech/
python3 -m venv venv; venv/bin/pip install wheel
venv/bin/pip install torch torchvision torchaudio
venv/bin/pip install -e .[stable]
venv/bin/huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
ツールの利用
ツールはtools/webui.py
なので、Python仮想環境のpython
により実行します。
venv/bin/python tools/webui.py
ツールを起動すると、次のようにhttp://127.0.0.1:7860
を開くようにメッセージが出るので、Webブラウザを起動してください。
$ venv/bin/python tools/webui.py
...(省略)...
Warming up done, launching the web UI...
Running on local URL: http://127.0.0.1:7860
後は、「入力テキスト」にテキストを書き込んで、「生成」ボタンを押すと読み上げ音声が生成されます。
感想
試してみたところ、流暢な日本語音声が生成されて驚きました。
現状では非商用のライセンスながら、簡単に高品質な音声合成ができるツールの登場で、期待大です。
Discussion