Closed3ヶ月前にクローズ3

「VoiceCraft」を試す

GitHubレポジトリ
https://github.com/jasonppy/VoiceCraft

 VoiceCraft: 野生の環境でのゼロショット音声編集とテキスト読み上げ（TTS）
 TL;DRVoiceCraftは、トークン補完型のニューラルコーデック言語モデルであり、オーディオブック、インターネットビデオ、ポッドキャストなどの「野生の環境」における音声編集およびゼロショットテキスト読み上げ（TTS）で最先端の性能を実現しています。
未見の声をクローンまたは編集する場合、VoiceCraftは数秒間の参照音声のみで動作可能です。

 推論を実行する方法以下の3つの方法があります（Colab内でGradioを実行する以外の方法）:
Google ColabでGradio UIを超えた柔軟な推論

詳細はquickstart colabを参照してください。
Dockerを使用して実行

詳細はquickstart dockerを参照してください。
Dockerを使用せずに実行

環境セットアップの手順についてはenvironment setupを確認してください。このオプションを選択した場合、ローカルでGradioを実行することも可能です。
スタンドアロンのスクリプトとして実行

他のプロジェクトに簡単に統合できる形式で実行できます。詳細はquickstart command lineを参照してください。
Dockerイメージ内にいる場合、またはすべての依存関係をインストール済みの場合、inference_tts.ipynbを確認してください。
モデルのトレーニングやファインチューニングを行う場合は、environment setupとtrainingに従うことをお勧めします。
TTSモデルっぽい、日本語が動くのかどうかは不明だが、学習用コードもあるみたい。

kun432

論文

https://arxiv.org/abs/2403.16973

kun432

後継みたいなものがでていたのでそちらを。

このスクラップは3ヶ月前にクローズされました