🔖

Parler-TTS (真にオープンなテキスト音声合成モデル) とは

2024/04/13に公開

先日、HuggingFaceがParler-TTSというレポジトリを公開しました
本記事では、こちらのモデルやレポジトリについて紹介したのちに、Parler-TTSのアーキテクチャや学習データ、学習方法を紹介します。

元論文の著者による紹介動画を見てもらえると分かりやすいです。

概要

Parler-TTSは軽量のテキスト音声合成モデル(以下、TTSモデル)です。テキストから高品質で自然な音声を指定されたスタイル(性別、口調、速さ)で生成します。

今回、HuggingFaceから公開されたコードはStability AIとエディンバラ大学の共同研究である、Natural language guidance of high-fidelity text-to-speech models with synthetic annotationsの再実装になります。

このレポジトリは他の多くのTTSモデルと違い、完全にオープンリリースになります。 つまり、モデルの学習で使われたデータセット、前処理、学習コード、重みの全てが公開されています。

本記事執筆時点では、Parler-TTS Mini v0.1のみが公開されていますが、今後も開発を続けて新しいバージョンのモデルを出していくようです。
現在、公開されているParler-TTS Mini v0.1は600Mパラメーターのモデルであり、1万時間弱の音声データで学習されていますが、今後発表される v1モデルではスケールアップと学習データの増量が試みられます。

Parler-TTSの進歩性

これまでのTTSモデルと比べてParler-TTSは以下の点を新たに主張しています。

  • 大量のラベルなしデータセット(45h)に対して性別、アクセント、速さ等に対する効率的なラベリング手法の提案
  • このデータセットを用いて学習することで、学習データには存在しないプロンプト(性別、アクセント、速さの自然言語での指定)にも対応できることを確かめた
  • 1%の高忠実なデータセットと音声コーデック(DAC)技術を用いることで、非常に忠実な音声生成ができることを確かめた。

Discussion