🔖
Parler-TTS (真にオープンなテキスト音声合成モデル) とは
先日、HuggingFaceがParler-TTSというレポジトリを公開しました
本記事では、こちらのモデルやレポジトリについて紹介したのちに、Parler-TTSのアーキテクチャや学習データ、学習方法を紹介します。
元論文の著者による紹介動画を見てもらえると分かりやすいです。
概要
Parler-TTSは軽量のテキスト音声合成モデル(以下、TTSモデル)です。テキストから高品質で自然な音声を指定されたスタイル(性別、口調、速さ)で生成します。
今回、HuggingFaceから公開されたコードはStability AIとエディンバラ大学の共同研究である、Natural language guidance of high-fidelity text-to-speech models with synthetic annotationsの再実装になります。
このレポジトリは他の多くのTTSモデルと違い、完全にオープンリリースになります。 つまり、モデルの学習で使われたデータセット、前処理、学習コード、重みの全てが公開されています。
本記事執筆時点では、Parler-TTS Mini v0.1のみが公開されていますが、今後も開発を続けて新しいバージョンのモデルを出していくようです。
現在、公開されているParler-TTS Mini v0.1は600Mパラメーターのモデルであり、1万時間弱の音声データで学習されていますが、今後発表される v1モデルではスケールアップと学習データの増量が試みられます。
Parler-TTSの進歩性
これまでのTTSモデルと比べてParler-TTSは以下の点を新たに主張しています。
- 大量のラベルなしデータセット(45h)に対して性別、アクセント、速さ等に対する効率的なラベリング手法の提案
- このデータセットを用いて学習することで、学習データには存在しないプロンプト(性別、アクセント、速さの自然言語での指定)にも対応できることを確かめた
- 1%の高忠実なデータセットと音声コーデック(DAC)技術を用いることで、非常に忠実な音声生成ができることを確かめた。
Discussion