Open3日前にコメント追加2

「VoxCPM」を試す

TTS

Text to Speech

voxcpm

kun432

モデル
https://huggingface.co/openbmb/VoxCPM-0.5B
モデルカードの概要を翻訳（GPT-5）

 🎙️ VoxCPM: 文脈に応じた音声生成と実在感の高いボイスクローンのためのトークナイザー不要TTS

referred from https://huggingface.co/openbmb/VoxCPM-0.5B

 概要VoxCPM は、音声合成におけるリアリズムを再定義する、新しいトークナイザー不要の Text-to-Speech (TTS) システムです。音声を連続空間でモデリングすることで、離散トークナイズの制約を乗り越え、文脈に応じた音声生成と、実在に迫るゼロショット・ボイスクローンという2つの旗艦機能を実現します。
主流手法が音声を離散トークンへ変換するのとは異なり、VoxCPM はテキストから連続的な音声表現を直接生成する、エンドツーエンドの拡散自回帰アーキテクチャを採用します。MiniCPM-4 をバックボーンに、階層型言語モデリングと FSQ 制約により、意味と音響の暗黙的な分離を実現し、表現力と生成の安定性を大幅に高めます。


referred from https://huggingface.co/openbmb/VoxCPM-0.5B

 🚀 主要機能
文脈対応で表現力豊かな音声生成 — VoxCPM はテキストを理解して適切なプロソディ（韻律）を推定・生成し、驚くほど表現力と自然な流れを備えた音声を提供します。内容に応じて話し方を自発的に適応させ、180万時間規模の中英バイリンガルコーパスで学習した、高い適合度の声の表現を生み出します。

実在感の高いボイスクローン — ごく短い参照音声クリップだけで正確なゼロショット・ボイスクローンを実行し、声質（ティンバー）に加えて、アクセント、感情的なトーン、リズム、話速などの精緻な特性まで捉え、忠実で自然なレプリカを作成します。

高効率な合成 — VoxCPM はストリーミング合成をサポートし、一般消費者向け NVIDIA RTX 4090 GPU 上で Real-Time Factor (RTF) が最小 0.17 を達成します。これによりリアルタイム用途が可能になります。

 📊 パフォーマンス・ハイライトVoxCPM は、公開ゼロショット TTS ベンチマークで競争力のある結果を達成しています:

 Seed-TTS-eval ベンチマーク

モデル
パラメータ
オープンソース
test-EN

test-ZH

test-Hard






WER/%⬇
SIM/%⬆
CER/%⬇
SIM/%⬆
CER/%⬇
SIM/%⬆

MegaTTS3
0.5B
❌
2.79
77.1
1.52
79.0
-
-

DiTAR
0.6B
❌
1.69
73.5
1.02
75.3
-
-

CosyVoice3
0.5B
❌
2.02
71.8
1.16
78.0
6.08
75.8

CosyVoice3
1.5B
❌
2.22
72.0
1.12
78.1
5.83
75.8

Seed-TTS
-
❌
2.25
76.2
1.12
79.6
7.59
77.6

MiniMax-Speech
-
❌
1.65
69.2
0.83
78.3
-
-

CosyVoice
0.3B
✅
4.29
60.9
3.63
72.3
11.75
70.9

CosyVoice2
0.5B
✅
3.09
65.9
1.38
75.7
6.83
72.4

F5-TTS
0.3B
✅
2.00
67.0
1.53
76.0
8.67
71.3

SparkTTS
0.5B
✅
3.14
57.3
1.54
66.0
-
-

FireRedTTS
0.5B
✅
3.82
46.0
1.51
63.5
17.45
62.1

FireRedTTS-2
1.5B
✅
1.95
66.5
1.14
73.6
-
-

Qwen2.5-Omni
7B
✅
2.72
63.2
1.70
75.2
7.97
74.7

OpenAudio-s1-mini
0.5B
✅
1.94
55.0
1.18
68.5
-
-

IndexTTS2
1.5B
✅
2.23
70.6
1.03
76.5
-
-

VibeVoice
1.5B
✅
3.04
68.9
1.16
74.4
-
-

HiggsAudio-v2
3B
✅
2.44
67.7
1.50
74.0
-
-

VoxCPM
0.5B
✅
1.85
72.9
0.93
77.2
8.87
73.0


 CV3-eval ベンチマーク

モデル
zh
en
hard-zh


hard-en





CER/%⬇
WER/%⬇
CER/%⬇
SIM/%⬆
DNSMOS⬆
WER/%⬇
SIM/%⬆
DNSMOS⬆

F5-TTS
5.47
8.90
-
-
-
-
-
-

SparkTTS
5.15
11.0
-
-
-
-
-
-

GPT-SoVits
7.34
12.5
-
-
-
-
-
-

CosyVoice2
4.08
6.32
12.58
72.6
3.81
11.96
66.7
3.95

OpenAudio-s1-mini
4.00
5.54
18.1
58.2
3.77
12.4
55.7
3.89

IndexTTS2
3.58
4.45
12.8
74.6
3.65
-
-
-

HiggsAudio-v2
9.54
7.89
41.0
60.2
3.39
10.3
61.8
3.68

CosyVoice3-0.5B
3.89
5.24
14.15
78.6
3.75
9.04
75.9
3.92

CosyVoice3-1.5B
3.91
4.99
9.77
78.5
3.79
10.55
76.1
3.95

VoxCPM
3.40
4.04
12.9
66.1
3.59
7.89
64.3
3.74


 ⚠️ リスクと制限一般的なモデル挙動: VoxCPM は大規模データセットで学習されていますが、それでも予期しない出力やバイアス、アーチファクトを含む場合があります。
ボイスクローン悪用の可能性: VoxCPM の強力なゼロショット・ボイスクローン機能は、極めてリアルな合成音声を生成できます。この技術は、なりすまし、詐欺、偽情報の拡散など、説得力のあるディープフェイクの作成に悪用される恐れがあります。本モデルの利用者は、個人の権利を侵害するコンテンツを作成してはなりません。違法または非倫理的な目的で VoxCPM を使用することは厳格に禁止されています。本モデルで生成したコンテンツを公共に共有する際は、AI 生成であることを明確に表示することを強く推奨します。
現時点の技術的制限: 一般に安定していますが、非常に長い入力や表現的な入力では、不安定さを示す場合があります。さらに、現行バージョンでは、感情や話し方など特定の音声属性を直接細かく制御する機能が限定的です。
バイリンガルモデル: VoxCPM は主に中国語と英語のデータで学習されています。他言語での性能は保証されず、予測不能または低品質な音声となる可能性があります。
本モデルは研究開発目的でのみ公開されています。厳密なテストと安全性評価を行わない限り、本番環境や商用アプリケーションでの使用は推奨しません。VoxCPM は責任を持ってご利用ください。

 📄 ライセンスVoxCPM のモデル重みとコードは、Apache-2.0 ライセンスの下でオープンソースとして公開されています。

モデル	パラメータ	オープンソース	test-EN		test-ZH		test-Hard
			WER/%⬇	SIM/%⬆	CER/%⬇	SIM/%⬆	CER/%⬇	SIM/%⬆
MegaTTS3	0.5B	❌	2.79	77.1	1.52	79.0	-	-
DiTAR	0.6B	❌	1.69	73.5	1.02	75.3	-	-
CosyVoice3	0.5B	❌	2.02	71.8	1.16	78.0	6.08	75.8
CosyVoice3	1.5B	❌	2.22	72.0	1.12	78.1	5.83	75.8
Seed-TTS	-	❌	2.25	76.2	1.12	79.6	7.59	77.6
MiniMax-Speech	-	❌	1.65	69.2	0.83	78.3	-	-
CosyVoice	0.3B	✅	4.29	60.9	3.63	72.3	11.75	70.9
CosyVoice2	0.5B	✅	3.09	65.9	1.38	75.7	6.83	72.4
F5-TTS	0.3B	✅	2.00	67.0	1.53	76.0	8.67	71.3
SparkTTS	0.5B	✅	3.14	57.3	1.54	66.0	-	-
FireRedTTS	0.5B	✅	3.82	46.0	1.51	63.5	17.45	62.1
FireRedTTS-2	1.5B	✅	1.95	66.5	1.14	73.6	-	-
Qwen2.5-Omni	7B	✅	2.72	63.2	1.70	75.2	7.97	74.7
OpenAudio-s1-mini	0.5B	✅	1.94	55.0	1.18	68.5	-	-
IndexTTS2	1.5B	✅	2.23	70.6	1.03	76.5	-	-
VibeVoice	1.5B	✅	3.04	68.9	1.16	74.4	-	-
HiggsAudio-v2	3B	✅	2.44	67.7	1.50	74.0	-	-
VoxCPM	0.5B	✅	1.85	72.9	0.93	77.2	8.87	73.0

モデル	zh	en	hard-zh			hard-en
	CER/%⬇	WER/%⬇	CER/%⬇	SIM/%⬆	DNSMOS⬆	WER/%⬇	SIM/%⬆	DNSMOS⬆
F5-TTS	5.47	8.90	-	-	-	-	-	-
SparkTTS	5.15	11.0	-	-	-	-	-	-
GPT-SoVits	7.34	12.5	-	-	-	-	-	-
CosyVoice2	4.08	6.32	12.58	72.6	3.81	11.96	66.7	3.95
OpenAudio-s1-mini	4.00	5.54	18.1	58.2	3.77	12.4	55.7	3.89
IndexTTS2	3.58	4.45	12.8	74.6	3.65	-	-	-
HiggsAudio-v2	9.54	7.89	41.0	60.2	3.39	10.3	61.8	3.68
CosyVoice3-0.5B	3.89	5.24	14.15	78.6	3.75	9.04	75.9	3.92
CosyVoice3-1.5B	3.91	4.99	9.77	78.5	3.79	10.55	76.1	3.95
VoxCPM	3.40	4.04	12.9	66.1	3.59	7.89	64.3	3.74

kun432

デモはこちら。音声クローンの再現性と自然さはかなり良いのでは。