Open2
「VoiceCraft」を試す
GitHubレポジトリ
VoiceCraft: 野生の環境でのゼロショット音声編集とテキスト読み上げ(TTS)
TL;DR
VoiceCraftは、トークン補完型のニューラルコーデック言語モデルであり、オーディオブック、インターネットビデオ、ポッドキャストなどの「野生の環境」における音声編集およびゼロショットテキスト読み上げ(TTS)で最先端の性能を実現しています。
未見の声をクローンまたは編集する場合、VoiceCraftは数秒間の参照音声のみで動作可能です。
推論を実行する方法
以下の3つの方法があります(Colab内でGradioを実行する以外の方法):
- Google ColabでGradio UIを超えた柔軟な推論
詳細はquickstart colabを参照してください。- Dockerを使用して実行
詳細はquickstart dockerを参照してください。- Dockerを使用せずに実行
環境セットアップの手順についてはenvironment setupを確認してください。このオプションを選択した場合、ローカルでGradioを実行することも可能です。- スタンドアロンのスクリプトとして実行
他のプロジェクトに簡単に統合できる形式で実行できます。詳細はquickstart command lineを参照してください。Dockerイメージ内にいる場合、またはすべての依存関係をインストール済みの場合、inference_tts.ipynbを確認してください。
モデルのトレーニングやファインチューニングを行う場合は、environment setupとtrainingに従うことをお勧めします。
TTSモデルっぽい、日本語が動くのかどうかは不明だが、学習用コードもあるみたい。
論文