😺

Matcha-TTSにDifferential Transformerを組み込んだ話

2024/10/14に公開

はじめに

こんにちはtuna2134です。

今回Matcha-TTSに新しく発表された手法であるDifferential Transformerを組み込みました。

今回のコード

https://github.com/tuna2134/Matcha-TTS-JP

そもそもMatcha-TTSとは

2023年に発表されたTTSモデルで条件付きフローマッチングを使用する軽いモデルです。

Differential Transformerとは

transformerには無関係な情報に注目してしまい、効率が低下していました。
そこで今回差分注意機構と呼ばれるものを導入することにより問題を解決しました。

学習手法

Matcha-TTS本家とはそんなに変わってないです。

  • GPU RTX2070
  • データセット JSUTコーパス

学習した結果

読み上げの精度がかなり向上しました。
今までの手法だとエポックが8の時だと、雑音が多すぎて聞き取れませんでしたが、今回Diff Transformerを導入することで普通に聞き取れる音声を生成するようになりました。

GitHubで編集を提案

Discussion