🐨

Microsoftから登場したVibeVoice凄すぎ

に公開2

Hugging Faceを開いたら、Microsoftから登場したVibe Voice 1.5Bモデルがトレンドに上がってました。
https://huggingface.co/microsoft/VibeVoice-1.5B

気になって調べてみたところめっちゃすごかったので紹介

Vibe Voice 1.5Bの特徴

1. 長尺生成

最大90分、4人の異なる話者による自然な会話が可能とのこと

2. モデルの軽さ

1.5Bとのことで軽そーとは思いましたが、GPU積んだPCで全然動くようです。
VRAMが8GBあれば十分動かせそうです。(RTX3060以上であればOK)
ベースモデルはQwen2.5 1.5bモデルです。

3. オープンソース

MITライセンスでHugging Faceから無料で自由に利用可能!

4. 出力音声の品質

めちゃくちゃ自然で感情のこもった音声を出力してくれます。
従来のTTSモデルにありがちな棒読みではありません。

動かしてみる

GitHubに動かすためのコードが用意されてました。これ使います。
https://github.com/microsoft/VibeVoice

ローカルに取り込み

git clone https://github.com/microsoft/VibeVoice

プロジェクトに移動

cd VibeVoice

仮想環境作成 + アクティベート

python -m venv .venv
source .venv/bin/activate

依存関係をインストール

pip install -e .

音声出力コマンドを実行

python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

モデル読み込み、音声出力が成功したらoutputsフォルダに<.txtファイル名>.wavファイルが作成されます。


カスタマイズ

何を入れようか思いつかなかったので美女と野獣の歌詞を入れてみます。
text_examplesフォルダに新しいファイルを作成して、英語を入力します。

書き方

  • 行の最初にSpeaker 1: xxxを記載
  • 複数話者がいる場合は改行してSpeakerの番号を変更

複数話者いる場合は引数に話者の名前を増やします。

選べるのは以下

  • Alice(米国女性)
  • Carter(米国男性)
  • Frank(米国男性)
  • Mary(米国女性)
  • Maya(米国女性)
  • Samuel(米国男性)
  • Anchen(中国男性)
  • Bowen(中国男性)
  • Xinran(中国女性)
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/beauty-and-the-beast.txt --speaker_names Maya Carter


出来た

==================================================
GENERATION SUMMARY
==================================================
Input file: demo/text_examples/beauty-and-the-beast.txt
Output file: ./outputs/beauty-and-the-beast_generated.wav
Speaker names: ['Maya', 'Carter']
Number of unique speakers: 2
Number of segments: 29
Prefilling tokens: 720
Generated tokens: 1371
Total tokens: 2091
Generation time: 149.11 seconds
Audio duration: 154.53 seconds
RTF (Real Time Factor): 0.96x
==================================================


さすがに歌は難しかった...
SLMを紹介する文章も音声出力させてみました。

https://github.com/IkeuchiRyuto/hf-output/blob/main/README.md


ちなみにVRAMは以下のような感じ(Windows 11 GTX-4060)
GPUメモリは約6.6GiB、計算リソースは約51%を使用してました。

ikeuchiryuto@xxxx:~$ nvidia-smi
Sat Aug 30 18:02:22 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.41                 Driver Version: 561.03         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4070 ...    On  |   00000000:01:00.0 Off |                  N/A |
| N/A   62C    P0             47W /   75W |    6609MiB /   8188MiB |     51%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A     33977      C   /python3.13                                 N/A      |
+-----------------------------------------------------------------------------------------+

気になったところ・まだできないこと

BGM?が勝手に入る

公式のFAQに記載ありましたが、どうやらランダムに発生してしまうようで、現状は制御ができません。。
どうやら「Hello」とか「Welecome to ~」などの紹介文がはいっているとBGMが出てきがちとのこと。

音声の重複

複数話者が同時に喋るようなことはまだ難しいようです。

歌唱力

さすがにまだ歌唱はできないようです。
トレーニングセットに入ってないようです。

音声の多言語化

英語中国語に対応していますが、中国語もところどころイントネーションが違う可能性があるようです。
トレーニングデータが英語に比べて少ないからのようです。

ヘッドウォータース

Discussion

mu babamu baba

これ、日本語対応されたら凄いなって思います。
でも、日本語対応は全然駄目でしたね。日本語がとっても下手な西洋人の声真似みたいな音声になってしまいます。残念