Closed10

「Zonos-v0.1」を試す

kun432kun432

https://x.com/ZyphraAI/status/1888996367923888341

GitHubレポジトリ

https://github.com/Zyphra/Zonos

Zonos-v0.1

Zonos-v0.1は、200,000時間以上の多言語音声データを学習した最先端のオープンウェイト音声合成モデルであり、主要なTTSプロバイダーと同等、またはそれを超える表現力と品質を実現します。

本モデルは、話者の埋め込みまたは音声のプレフィックスを指定することで、テキストプロンプトから非常に自然な音声を生成します。また、数秒間の参照クリップを入力することで、高精度な音声クローンを実行できます。条件付けの設定により、話速、ピッチの変動、音質、さらには幸福・恐怖・悲しみ・怒りといった感情の細かい制御も可能です。本モデルの音声出力は、44kHzのネイティブサンプリングレートに対応しています。

詳細および音声サンプルについては、こちらのブログをご覧ください: こちら

ホスティング版も提供しています: maia.zyphra.com/audio


Zonosはシンプルなアーキテクチャを採用しており、eSpeakによるテキスト正規化と音素変換の後、トランスフォーマーまたはハイブリッドバックボーンを用いたDACトークン予測を行います。以下の図でアーキテクチャの概要をご覧いただけます。


referred from https://github.com/Zyphra/Zonos

特徴

  • ゼロショットTTSによる音声クローン: 任意のテキストと10~30秒の話者サンプルを入力することで、高品質なTTS出力を生成可能
  • 音声プレフィックス入力対応: テキストと音声プレフィックスを組み合わせることで、話者マッチングを強化可能。音声プレフィックスを使用すると、ささやき声など、話者埋め込みのみでは再現が困難な表現を生成可能
  • 多言語対応: Zonos-v0.1は英語、日本語、中国語、フランス語、ドイツ語をサポート
  • 音質および感情の制御: 話速、ピッチ、最大周波数、音質、幸福・怒り・悲しみ・恐怖などの感情を細かく制御可能
  • 高速処理: RTX 4090で約2倍のリアルタイム処理速度を実現
  • Gradio WebUI: Zonosには簡単に音声を生成できるGradioインターフェースが同梱
  • 簡単なインストールとデプロイ: リポジトリに含まれるDockerファイルを利用して簡単にセットアップ可能

モデルは2つある

https://huggingface.co/Zyphra/Zonos-v0.1-transformer

https://huggingface.co/Zyphra/Zonos-v0.1-hybrid

公式ブログによると

https://www.zyphra.com/post/beta-release-of-zonos-v0-1

Zonos-v0.1モデルスイートには、2つの1.6Bモデル、すなわちトランスフォーマーとSSMハイブリッドが含まれています。 当社は、これらのモデルの両方を寛容なApache 2.0ライセンスでリリースしています。 当社のスイートには、トランスフォーマーモデルとSSMハイブリッドモデルが含まれています。特に、TTS用に利用可能な初のオープンソースSSMモデルです。 このデュアルアプローチにより、音声生成におけるこれらのアーキテクチャ間のパフォーマンスと品質のトレードオフを徹底的に調査することができます。

Zonos-v0.1モデルは、オーディオブックのナレーションのようなニュートラルなトーンの音声と、非常に表現力豊かな音声の両方を含む、約20万時間の音声データでトレーニングされています。データの大部分は英語ですが、中国語、日本語、フランス語、スペイン語、ドイツ語もかなりの量があります。トレーニング用データセットには、その他多くの言語もわずかながら含まれていますが、これらの言語におけるモデルのパフォーマンスは堅牢ではありません。

Zonosは、話者埋め込みまたは音声プレフィックスを指定したテキストプロンプトから、表現力豊かで自然な音声生成を可能にします。さらに、Zonosは5秒から30秒間の音声クリップから、高品質な音声の複製を行うことができます。また、Zonosは、話す速度、ピッチの標準偏差、音声品質、悲しみ、恐怖、怒り、喜び、驚きなどの感情に基づいて条件付けを行うこともできます。Zonosは、44KHzでネイティブな音声を出力します。

とのこと。SSMってのはState Space Modelってやつかな。多分Cartesiaとかと同じアーキテクチャなのだろうと推測。

https://zenn.dev/kun432/scraps/9f0b143b4eae43

kun432kun432

Dockerで試してみる。Ubuntu 22.04・RTX4090環境。

レポジトリクローン

git clone https://github.com/Zyphra/Zonos && cd Zonos

GradioのUIを起動。結構時間がかかる。

docker compose up

Gradioが起動したらブラウザでアクセス。モデルのロードも結構時間がかかるが、以下のような感じで試せる。

参考までにTransformerモデルとHybridモデルでの日本語音声の結果。

https://audio.com/kun432/audio/zonos-transformer-jp

https://audio.com/kun432/audio/zonos-hybrid-jp

Transformerモデルだとエコーがかかったようになるな・・・Hybridモデルのほうはそんなこともなく発話も自然に聞こえる。

kun432kun432

nvidia-smiだとこんな感じ

Tue Feb 11 09:53:10 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4090        Off |   00000000:01:00.0 Off |                  Off |
|  0%   46C    P8             14W /  450W |    5101MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
kun432kun432

API経由でも日本語が利用できるようになったらしい。

https://x.com/ZyphraAI/status/1897452509398216795

かなり自然な感じに聞こえるなぁ。

Dockerで動かしていたので全然気づいてなかったのだけど、レポジトリ見ているとg2pにespeakNG使っているようなので発話精度はつらそうに思うのだが、こんなにきれいに発話できるもんなのかな?商用はちょっと違うのかも???

https://github.com/Zyphra/Zonos

kun432kun432

動かすだけならDockerお手軽だけど、何やってるかも気にしなくて済んでしまうので、良し悪しだなぁ・・・

kun432kun432

Zyphraでアカウント作ってみた。

モデルはTransformerとHybridから選択

ビルトインの日本語モデルは3種類

Playgroudだと感情表現は設定できない感じかな?

APIドキュメントはどうやらパブリックになっていないようで、ちょっとわかりにくい。左のメニューから「Add Credits」か「Account Settings」をクリックするとメニューがかわって表示される。

感情設定はこんな感じで行える。

あと、TransformerとHybridの2つのモデル、日本語の場合はHybridのほうが良いみたい。

kun432kun432

全般的に情報がパブリックになっていないので、ちょっと面倒かもね。

kun432kun432

改めて見直してたけど、音声クローンと感情パラメータ設定が両方実装されているようなTTS、ってあまりないような気がする。そういう意味では結構貴重かも。

ただ感情パラメータも音声クローンもめちゃめちゃ良いというほどではないけども。

このスクラップは2025/02/11にクローズされました