🐨

Microsoftから登場したVibeVoice凄すぎ

ikebowsan

2025/08/30に公開2件

Hugging Faceを開いたら、Microsoftから登場したVibe Voice 1.5Bモデルがトレンドに上がってました。

https://huggingface.co/microsoft/VibeVoice-1.5B
気になって調べてみたところめっちゃすごかったので紹介

 Vibe Voice 1.5Bの特徴
 1. 長尺生成最大90分、4人の異なる話者による自然な会話が可能とのこと

 2. モデルの軽さ1.5Bとのことで軽そーとは思いましたが、GPU積んだPCで全然動くようです。

VRAMが8GBあれば十分動かせそうです。(RTX3060以上であればOK)

ベースモデルはQwen2.5 1.5bモデルです。

 3. オープンソースMITライセンスでHugging Faceから無料で自由に利用可能！

 4. 出力音声の品質めちゃくちゃ自然で感情のこもった音声を出力してくれます。

従来のTTSモデルにありがちな棒読みではありません。

 動かしてみるGitHubに動かすためのコードが用意されてました。これ使います。

https://github.com/microsoft/VibeVoice
ローカルに取り込み
git clone https://github.com/microsoft/VibeVoice
プロジェクトに移動
cd VibeVoice
仮想環境作成 + アクティベート
python -m venv .venv
source .venv/bin/activate
依存関係をインストール
pip install -e .
音声出力コマンドを実行
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
モデル読み込み、音声出力が成功したらoutputsフォルダに<.txtファイル名>.wavファイルが作成されます。


 カスタマイズ何を入れようか思いつかなかったので美女と野獣の歌詞を入れてみます。

text_examplesフォルダに新しいファイルを作成して、英語を入力します。
書き方
行の最初にSpeaker 1: xxxを記載
複数話者がいる場合は改行してSpeakerの番号を変更
複数話者いる場合は引数に話者の名前を増やします。
選べるのは以下
Alice(米国女性)
Carter(米国男性)
Frank(米国男性)
Mary(米国女性)
Maya(米国女性)
Samuel(米国男性)
Anchen(中国男性)
Bowen(中国男性)
Xinran(中国女性)
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/beauty-and-the-beast.txt --speaker_names Maya Carter

出来た
==================================================
GENERATION SUMMARY
==================================================
Input file: demo/text_examples/beauty-and-the-beast.txt
Output file: ./outputs/beauty-and-the-beast_generated.wav
Speaker names: ['Maya', 'Carter']
Number of unique speakers: 2
Number of segments: 29
Prefilling tokens: 720
Generated tokens: 1371
Total tokens: 2091
Generation time: 149.11 seconds
Audio duration: 154.53 seconds
RTF (Real Time Factor): 0.96x
==================================================

さすがに歌は難しかった...

SLMを紹介する文章も音声出力させてみました。
https://github.com/IkeuchiRyuto/hf-output/blob/main/README.md

ちなみにVRAMは以下のような感じ（Windows 11 GTX-4060）

GPUメモリは約6.6GiB、計算リソースは約51%を使用してました。
ikeuchiryuto@xxxx:~$ nvidia-smi
Sat Aug 30 18:02:22 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.41                 Driver Version: 561.03         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4070 ...    On  |   00000000:01:00.0 Off |                  N/A |
| N/A   62C    P0             47W /   75W |    6609MiB /   8188MiB |     51%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A     33977      C   /python3.13                                 N/A      |
+-----------------------------------------------------------------------------------------+

 気になったところ・まだできないこと
 BGM?が勝手に入る公式のFAQに記載ありましたが、どうやらランダムに発生してしまうようで、現状は制御ができません。。

どうやら「Hello」とか「Welecome to ~」などの紹介文がはいっているとBGMが出てきがちとのこと。

 音声の重複複数話者が同時に喋るようなことはまだ難しいようです。

 歌唱力さすがにまだ歌唱はできないようです。

トレーニングセットに入ってないようです。

 音声の多言語化英語と中国語に対応していますが、中国語もところどころイントネーションが違う可能性があるようです。

トレーニングデータが英語に比べて少ないからのようです。

ヘッドウォータース

株式会社ヘッドウォータースのテックブログです。 AIエージェント、生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！

Discussion

mu baba

これ､日本語対応されたら凄いなって思います｡
でも､日本語対応は全然駄目でしたね｡日本語がとっても下手な西洋人の声真似みたいな音声になってしまいます｡残念

ikebowsan

今後日本語対応のモデルが出ることに期待ですね!