論文要約: Tacotron2 - TacotronとWaveNetを組み合わせた音声合成モデル
論文
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
概要
RNNを用いたsequence-to-sequenceモデルによってテキストからMelスペクトグラムを生成し、改良したWaveNetを使って音声波形を合成するモデルを提案する。
提案モデルはmean opinion score(MOS)という評価指標で4.53を記録し、専門家の録音音声のスコア4.58に匹敵するスコアを記録した。
既存研究との違い
本研究は既存研究の「良いとこどり」をしたアーキテクチャを提案する。
WaveNet[1]は時間領域の波形を生成する生成モデルで、現実の人間のスピーチに匹敵する性能を持つが、入力として言語学的な特徴量、fundamental frequency、音素の遅延量をとるため、専門家による特徴量抽出やパラメータチューニングを必要した。
また、Tacotron[2]は文字のシーケンスから振幅スペクトグラムを生成するモデルで、伝統的な言語学的、音響学的な特徴抽出をニューラルネットワークで代替した画期的なものだった。しかしながら、音声波形の生成には位相の推定にGriffin-Limアルゴリズムを使用し、後続に短時間フーリエ逆変換を用いている。これはWaveNetのようなアプローチと比較してアーティファクト(=本来出力したい音声とは関係のない情報)を含んでいたり、音質的に劣っている。
本研究ではこれらの既存研究を統合する。すなわち、Tacotron形式のモデルで振幅スペクトグラムを生成し、改良したWaveNetボコーダによって音声生成するアプローチをとる。
評価方法
モデルの訓練および評価にはUS English datasetを用いた。このデータセットは1人のプロの女性話者による24.6時間のスピーチからなる。
test setから100サンプルをランダムに抽出し、Amazon Mechanical Turkと同様の人力レーティングサービスを利用して評価した。1サンプルあたり最低8人が1から5まで0.5刻みのレートで評価し、Mean opinion score(MOS)[3]を算出した。
所感
-
この記事執筆時点(2022/08)でいまだにRNNベースの手法がSOTAとなっている。Transformerで実装すると性能改善が期待できるだろうか?TransformerベースのTTS(Text-To-Speech synthesis)モデルとして、2019年にNaihan LiらによってTransormer TTS[4]が提案されている。このモデルはTacotron2におけるエンコーダ、デコーダをTransformerで設計し直したアーキテクチャで、論文によるとTacotron2と同等の評価性能で4.25倍の学習時間の短縮を実現している。提案手法のオーディオサンプル[5]を聞いてみたが、抑揚以外にほとんど違和感がなく、極めて自然な会話音声を生成できている。 -
評価指標が人力なのは研究コストが高い。画像の生成モデルのように機械的に判定できる指標(PPLなど)があれば良いのだが2020年にZhifeng Kongらが著したDiffWaveの論文[6]では評価指標にMOSに加えてFID, IS, mIS, AM, NDB/Kの5つの機械的に判定できる評価指標を採用している。
Discussion