Open4

OSS の VALL-E-X やってみる

pn11pn11

Intel Mac でやってみる

git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python launch-ui.py

pn11pn11

10秒くらいの録音を入れてデフォルトの 'Welcome back, Master. What can I do for you today?' を合成してみた。 CPU だと5分くらい。ちょっと何言ってるか分からない感じになった。自動で音声認識して、音声認識結果と音声データと合成テキストがプロンプトになるっぽい。 one-shot でできるのですごい。

pn11pn11

Apple Silicon (M2) でやったらだいぶ速かった(数十秒)。 GPU 環境作るの面倒なのでこれでいく。