Closed2025/02/11にクローズ10

「Zonos-v0.1」を試す

https://x.com/ZyphraAI/status/1888996367923888341
GitHubレポジトリ
https://github.com/Zyphra/Zonos

 Zonos-v0.1Zonos-v0.1は、200,000時間以上の多言語音声データを学習した最先端のオープンウェイト音声合成モデルであり、主要なTTSプロバイダーと同等、またはそれを超える表現力と品質を実現します。
本モデルは、話者の埋め込みまたは音声のプレフィックスを指定することで、テキストプロンプトから非常に自然な音声を生成します。また、数秒間の参照クリップを入力することで、高精度な音声クローンを実行できます。条件付けの設定により、話速、ピッチの変動、音質、さらには幸福・恐怖・悲しみ・怒りといった感情の細かい制御も可能です。本モデルの音声出力は、44kHzのネイティブサンプリングレートに対応しています。
詳細および音声サンプルについては、こちらのブログをご覧ください: こちら
ホスティング版も提供しています: maia.zyphra.com/audio
Zonosはシンプルなアーキテクチャを採用しており、eSpeakによるテキスト正規化と音素変換の後、トランスフォーマーまたはハイブリッドバックボーンを用いたDACトークン予測を行います。以下の図でアーキテクチャの概要をご覧いただけます。


referred from https://github.com/Zyphra/Zonos


 特徴

ゼロショットTTSによる音声クローン: 任意のテキストと10～30秒の話者サンプルを入力することで、高品質なTTS出力を生成可能

音声プレフィックス入力対応: テキストと音声プレフィックスを組み合わせることで、話者マッチングを強化可能。音声プレフィックスを使用すると、ささやき声など、話者埋め込みのみでは再現が困難な表現を生成可能

多言語対応: Zonos-v0.1は英語、日本語、中国語、フランス語、ドイツ語をサポート

音質および感情の制御: 話速、ピッチ、最大周波数、音質、幸福・怒り・悲しみ・恐怖などの感情を細かく制御可能

高速処理: RTX 4090で約2倍のリアルタイム処理速度を実現

Gradio WebUI: Zonosには簡単に音声を生成できるGradioインターフェースが同梱

簡単なインストールとデプロイ: リポジトリに含まれるDockerファイルを利用して簡単にセットアップ可能

モデルは2つある
https://huggingface.co/Zyphra/Zonos-v0.1-transformer
https://huggingface.co/Zyphra/Zonos-v0.1-hybrid
公式ブログによると
https://www.zyphra.com/post/beta-release-of-zonos-v0-1
Zonos-v0.1モデルスイートには、2つの1.6Bモデル、すなわちトランスフォーマーとSSMハイブリッドが含まれています。 当社は、これらのモデルの両方を寛容なApache 2.0ライセンスでリリースしています。 当社のスイートには、トランスフォーマーモデルとSSMハイブリッドモデルが含まれています。特に、TTS用に利用可能な初のオープンソースSSMモデルです。 このデュアルアプローチにより、音声生成におけるこれらのアーキテクチャ間のパフォーマンスと品質のトレードオフを徹底的に調査することができます。
Zonos-v0.1モデルは、オーディオブックのナレーションのようなニュートラルなトーンの音声と、非常に表現力豊かな音声の両方を含む、約20万時間の音声データでトレーニングされています。データの大部分は英語ですが、中国語、日本語、フランス語、スペイン語、ドイツ語もかなりの量があります。トレーニング用データセットには、その他多くの言語もわずかながら含まれていますが、これらの言語におけるモデルのパフォーマンスは堅牢ではありません。
Zonosは、話者埋め込みまたは音声プレフィックスを指定したテキストプロンプトから、表現力豊かで自然な音声生成を可能にします。さらに、Zonosは5秒から30秒間の音声クリップから、高品質な音声の複製を行うことができます。また、Zonosは、話す速度、ピッチの標準偏差、音声品質、悲しみ、恐怖、怒り、喜び、驚きなどの感情に基づいて条件付けを行うこともできます。Zonosは、44KHzでネイティブな音声を出力します。
とのこと。SSMってのはState Space Modelってやつかな。多分Cartesiaとかと同じアーキテクチャなのだろうと推測。
https://zenn.dev/kun432/scraps/9f0b143b4eae43

Dockerで試してみる。Ubuntu 22.04・RTX4090環境。
レポジトリクローン
git clone https://github.com/Zyphra/Zonos && cd Zonos
GradioのUIを起動。結構時間がかかる。
docker compose up
Gradioが起動したらブラウザでアクセス。モデルのロードも結構時間がかかるが、以下のような感じで試せる。
参考までにTransformerモデルとHybridモデルでの日本語音声の結果。
https://audio.com/kun432/audio/zonos-transformer-jp
https://audio.com/kun432/audio/zonos-hybrid-jp
Transformerモデルだとエコーがかかったようになるな・・・Hybridモデルのほうはそんなこともなく発話も自然に聞こえる。

nvidia-smiだとこんな感じ

Tue Feb 11 09:53:10 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4090        Off |   00000000:01:00.0 Off |                  Off |
|  0%   46C    P8             14W /  450W |    5101MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

現時点では学習用コードは公開予定なしとのこと

API経由でも日本語が利用できるようになったらしい。
https://x.com/ZyphraAI/status/1897452509398216795
かなり自然な感じに聞こえるなぁ。
Dockerで動かしていたので全然気づいてなかったのだけど、レポジトリ見ているとg2pにespeakNG使っているようなので発話精度はつらそうに思うのだが、こんなにきれいに発話できるもんなのかな？商用はちょっと違うのかも？？？
https://github.com/Zyphra/Zonos

動かすだけならDockerお手軽だけど、何やってるかも気にしなくて済んでしまうので、良し悪しだなぁ・・・

Zyphraでアカウント作ってみた。
モデルはTransformerとHybridから選択
ビルトインの日本語モデルは3種類
Playgroudだと感情表現は設定できない感じかな？
APIドキュメントはどうやらパブリックになっていないようで、ちょっとわかりにくい。左のメニューから「Add Credits」か「Account Settings」をクリックするとメニューがかわって表示される。
感情設定はこんな感じで行える。
あと、TransformerとHybridの２つのモデル、日本語の場合はHybridのほうが良いみたい。

全般的に情報がパブリックになっていないので、ちょっと面倒かもね。

改めて見直してたけど、音声クローンと感情パラメータ設定が両方実装されているようなTTS、ってあまりないような気がする。そういう意味では結構貴重かも。

ただ感情パラメータも音声クローンもめちゃめちゃ良いというほどではないけども。

APIサーバを追加するPR出てる。良さそう。だけどマージ待ちで進んでなさそう

https://github.com/Zyphra/Zonos/pull/73

このスクラップは2025/02/11にクローズされました