🗣️

Fish Speech浅煎り

2024/09/29に公開

新進気鋭のテキスト読み上げ・音声合成ツールであるFish Speechを見つけました。
さっそく試してみたので報告します。

検証日時は 2024-09-29
環境は Ubuntu 24.04 amd64 です。

GitHub https://github.com/fishaudio/fish-speech
ドキュメント https://speech.fish.audio/
デモ音声(YouTube) https://www.youtube.com/watch?v=Ghc8cJdQyKQ
公式ページのサンプル https://speech.fish.audio/ja/samples/

特徴

  • ウェブUIにより簡単に使える
  • 動作要件はOSがLinuxまたはUbuntu。GPUメモリが4GB必要(音声合成に。音声の学習には8GB必要とのこと)
  • かなりいい感じに音声合成してくれる。音声は(デモでは)男性・女性などある(らしい)
  • 対応する言語は、英語、中国語、日本語、ポルトガル語(らしい)
  • 15秒程度の音声を入力することで、学習して声真似ができる(らしい)

なお、2024-09-29現在、ライセンスは CC-BY-NC-SA-4.0 なので、非営利のみ利用可能です。

Ubuntu 24.04でのインストール

いつもどおりの手順で、必要な依存のインストール、GitHubリポジトリのクローン、Python仮想環境の作成とライブラリ及びFish Speech本体のインストール、モデルのダウンロードとなります。

sudo apt install libsox-dev ffmpeg
git clone https://github.com/fishaudio/fish-speech
cd fish-speech/
python3 -m venv venv; venv/bin/pip install wheel
venv/bin/pip install torch torchvision torchaudio
venv/bin/pip install -e .[stable]
venv/bin/huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4

ツールの利用

ツールはtools/webui.pyなので、Python仮想環境のpythonにより実行します。

venv/bin/python tools/webui.py

ツールを起動すると、次のようにhttp://127.0.0.1:7860を開くようにメッセージが出るので、Webブラウザを起動してください。

$ venv/bin/python tools/webui.py
...(省略)...
Warming up done, launching the web UI...
Running on local URL:  http://127.0.0.1:7860

後は、「入力テキスト」にテキストを書き込んで、「生成」ボタンを押すと読み上げ音声が生成されます。

感想

試してみたところ、流暢な日本語音声が生成されて驚きました。

現状では非商用のライセンスながら、簡単に高品質な音声合成ができるツールの登場で、期待大です。

Discussion