Open2

「VoiceCraft」を試す

kun432kun432

GitHubレポジトリ

https://github.com/jasonppy/VoiceCraft

VoiceCraft: 野生の環境でのゼロショット音声編集とテキスト読み上げ(TTS)

TL;DR

VoiceCraftは、トークン補完型のニューラルコーデック言語モデルであり、オーディオブック、インターネットビデオ、ポッドキャストなどの「野生の環境」における音声編集およびゼロショットテキスト読み上げ(TTS)で最先端の性能を実現しています。

未見の声をクローンまたは編集する場合、VoiceCraftは数秒間の参照音声のみで動作可能です。

推論を実行する方法

以下の3つの方法があります(Colab内でGradioを実行する以外の方法):

  1. Google ColabでGradio UIを超えた柔軟な推論
    詳細はquickstart colabを参照してください。
  2. Dockerを使用して実行
    詳細はquickstart dockerを参照してください。
  3. Dockerを使用せずに実行
    環境セットアップの手順についてはenvironment setupを確認してください。このオプションを選択した場合、ローカルでGradioを実行することも可能です。
  4. スタンドアロンのスクリプトとして実行
    他のプロジェクトに簡単に統合できる形式で実行できます。詳細はquickstart command lineを参照してください。

Dockerイメージ内にいる場合、またはすべての依存関係をインストール済みの場合、inference_tts.ipynbを確認してください。

モデルのトレーニングやファインチューニングを行う場合は、environment setuptrainingに従うことをお勧めします。


TTSモデルっぽい、日本語が動くのかどうかは不明だが、学習用コードもあるみたい。