Microsoftから登場したVibeVoice凄すぎ
Hugging Faceを開いたら、Microsoftから登場したVibe Voice 1.5Bモデルがトレンドに上がってました。
気になって調べてみたところめっちゃすごかったので紹介
Vibe Voice 1.5Bの特徴
1. 長尺生成
最大90分、4人の異なる話者による自然な会話が可能とのこと
2. モデルの軽さ
1.5Bとのことで軽そーとは思いましたが、GPU積んだPCで全然動くようです。
VRAMが8GBあれば十分動かせそうです。(RTX3060以上であればOK)
ベースモデルはQwen2.5 1.5bモデルです。
3. オープンソース
MITライセンスでHugging Faceから無料で自由に利用可能!
4. 出力音声の品質
めちゃくちゃ自然で感情のこもった音声を出力してくれます。
従来のTTSモデルにありがちな棒読みではありません。
動かしてみる
GitHubに動かすためのコードが用意されてました。これ使います。
ローカルに取り込み
git clone https://github.com/microsoft/VibeVoice
プロジェクトに移動
cd VibeVoice
仮想環境作成 + アクティベート
python -m venv .venv
source .venv/bin/activate
依存関係をインストール
pip install -e .
音声出力コマンドを実行
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
モデル読み込み、音声出力が成功したらoutputsフォルダに<.txtファイル名>.wavファイルが作成されます。
カスタマイズ
何を入れようか思いつかなかったので美女と野獣の歌詞を入れてみます。
text_examplesフォルダに新しいファイルを作成して、英語を入力します。
書き方
- 行の最初に
Speaker 1: xxx
を記載 - 複数話者がいる場合は改行してSpeakerの番号を変更
複数話者いる場合は引数に話者の名前を増やします。
選べるのは以下
- Alice(米国女性)
- Carter(米国男性)
- Frank(米国男性)
- Mary(米国女性)
- Maya(米国女性)
- Samuel(米国男性)
- Anchen(中国男性)
- Bowen(中国男性)
- Xinran(中国女性)
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/beauty-and-the-beast.txt --speaker_names Maya Carter
出来た
==================================================
GENERATION SUMMARY
==================================================
Input file: demo/text_examples/beauty-and-the-beast.txt
Output file: ./outputs/beauty-and-the-beast_generated.wav
Speaker names: ['Maya', 'Carter']
Number of unique speakers: 2
Number of segments: 29
Prefilling tokens: 720
Generated tokens: 1371
Total tokens: 2091
Generation time: 149.11 seconds
Audio duration: 154.53 seconds
RTF (Real Time Factor): 0.96x
==================================================
さすがに歌は難しかった...
SLMを紹介する文章も音声出力させてみました。
ちなみにVRAMは以下のような感じ(Windows 11 GTX-4060)
GPUメモリは約6.6GiB、計算リソースは約51%を使用してました。
ikeuchiryuto@xxxx:~$ nvidia-smi
Sat Aug 30 18:02:22 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.41 Driver Version: 561.03 CUDA Version: 12.6 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4070 ... On | 00000000:01:00.0 Off | N/A |
| N/A 62C P0 47W / 75W | 6609MiB / 8188MiB | 51% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 33977 C /python3.13 N/A |
+-----------------------------------------------------------------------------------------+
気になったところ・まだできないこと
BGM?が勝手に入る
公式のFAQに記載ありましたが、どうやらランダムに発生してしまうようで、現状は制御ができません。。
どうやら「Hello」とか「Welecome to ~」などの紹介文がはいっているとBGMが出てきがちとのこと。
音声の重複
複数話者が同時に喋るようなことはまだ難しいようです。
歌唱力
さすがにまだ歌唱はできないようです。
トレーニングセットに入ってないようです。
音声の多言語化
英語
と中国語
に対応していますが、中国語もところどころイントネーションが違う可能性があるようです。
トレーニングデータが英語に比べて少ないからのようです。
Discussion
これ、日本語対応されたら凄いなって思います。
でも、日本語対応は全然駄目でしたね。日本語がとっても下手な西洋人の声真似みたいな音声になってしまいます。残念
今後日本語対応のモデルが出ることに期待ですね!