Closed4

SPEECHSPLIT2.0

わっしーわっしー

SPEECHSPLITは、教師なし方式で複数のオートエンコーダを用いて音声を内容、リズム、ピッチ、音色に分解し、アスペクトに応じた音声変換を行うことができる手法です。

しかし,SPEECHSPLITはオートエンコーダのボトルネックを慎重に調整する必要があり,時間がかかる上にロバスト性が低いという問題がある.

論文では、ボトルネックのチューニングの代わりに、効率的な信号処理手法を用いて、オートエンコーダ入力上で分離すべき音声成分の情報フローを制約するSPEECHSPLIT2.0を提案する。評価の結果、SPEECHSPLIT2.0はSPEECHSPLITと同等の音声分離性能を達成し、ボトルネックのサイズ変動に対して優れた頑健性を持つことがわかった。

わっしーわっしー

人間の音声は、内容、リズム、ピッチ、音色、感情、アクセントなど、互いに絡み合った多くの構成要素を含む豊かな情報の流れを伝える。しかし、ほとんどの音声アプリケーションは、多くの構成要素のうちの狭い部分集合にしか着目していません。例えば、自動音声認識は内容のみに着目し、話者認識と感情認識はそれぞれ音色と感情に着目し、音声変換は主に音色に着目しています。これに基づいて、音声認識、音声合成、感情分析、プライバシー保護、音声変換など、さまざまな音声アプリケーションで関心のある音声成分を切り離すことが有益であるとされています。

論文では、音声変換のための音声分離に焦点を当てる。音声変換は、言語的な内容を変えずに音声の特徴を修正することを目的としており、音声のもつれ解消が頻繁に研究されている分野である。音声変換システムの大半は、音質変換に重点を置いており、内容と音質の分離が成功の鍵である。

初期の試みとして、VAE-VCは、音質分離のために変分オートエンコーダ(VAE)を直接適用しています。その後、ChouらとACVAE-VCは、補助話者分類器を用いて音色を分離している。また、StarGAN-VCはStarGAN を、CycleGAN-VCはCycleGANを音声変換に適用したもので、画像スタイル変換に着想を得ている。AutoVC は、バニラオートエンコーダのボトルネック次元を直接調整することにより、話者とコンテンツの分離を行う。次のAutoVCF0は、ピッチの輪郭を条件とすることで、ピッチの分離を向上させるものである。AutoPST は、類似性に基づく時間再サンプリングを用いてリズムをさらに切り離す。

SPEECHSPLITは、音声の粒度を改善するために、ボトルネックを慎重に調整した3つのエンコーダを用いて、音声を内容、リズム、ピッチ、音色に分離する。SPEECHSPLITはリズム、ピッチ、音色の変換に有効であるが、2つの問題がある。1つは、ボトルネックのチューニングに時間とリソースがかかること。第二に、異なるデータセットに対して再チューニングが必要である。

論文では、SPEECHSPLITのネットワークアーキテクチャを変更することなく、効率的な信号処理技術を適用し、手間のかかるボトルネックチューニングを緩和するSPEECHSPLIT2.0を提案している。エンコーダの入力を処理することで、モデルに流入する情報を制御し、ボトルネックチューニングの要求を軽減しながら、各成分の分離表現を学習することができることを示す。

実験により、提案手法の分離性能は、ボトルネックの次元を調整することなく、異なるボトルネック次元に対して頑健であることが示された。また、SPEECHSPLIT2.0は、SPEECHSPLITと同様に、再構成損失に対する学習のみによって、並列データやテキスト転記を必要としない教師なし方式で音声分離を実現している。

わっしーわっしー

PS: ピッチ情報を除去するPitch smotherを追加
VTLP: 音色情報を除去するためVocal Tract Length Perturbatioを追加
SE: speech splitは fill in blank 機構を仮定している。リズム表現が発話中の全ての音節と休止に対応する空白を表現し、デコーダでは、その空白をコンテキストとピッチの埋め込みで埋めていくと仮定。つまり、良いリズム表現は、コンテキスト、ピッチ、音色をほとんど保存しないことが望ましい。

このスクラップは2022/06/20にクローズされました