Open4
OSS の VALL-E-X やってみる

Intel Mac でやってみる
git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python launch-ui.py

10秒くらいの録音を入れてデフォルトの 'Welcome back, Master. What can I do for you today?' を合成してみた。 CPU だと5分くらい。ちょっと何言ってるか分からない感じになった。自動で音声認識して、音声認識結果と音声データと合成テキストがプロンプトになるっぽい。 one-shot でできるのですごい。

Apple Silicon (M2) でやったらだいぶ速かった(数十秒)。 GPU 環境作るの面倒なのでこれでいく。