<p>追記: 2023/06/19<br>
ここで私がv3モデルと称しているのはあくまで自称であり、公式とは関係がないです。<br>
v2を改造したものを便宜上v3としただけで、現在進行形で開発中のため、マージの予定はまだ考えていません。</p>
<h1 id="%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB">
<a class="header-anchor-link" href="#%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" aria-hidden="true"></a> はじめに</h1>
<p>こんにちは、<a href="https://twitter.com/Py2K4" target="_blank" rel="nofollow noopener noreferrer">nadare</a>です。<br>
機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。</p>
<p>Retrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、<a href="https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI" target="_blank" rel="nofollow noopener noreferrer">本家Retrieval-based-Voice-Conversion-WebUI</a>や<a href="https://github.com/ddPn08/rvc-webui/tree/main" target="_blank" rel="nofollow noopener noreferrer">ddPn08さん版RVC-WebUI</a>、<a href="https://github.com/w-okada/voice-changer" target="_blank" rel="nofollow noopener noreferrer">VC Client</a>にPR投げつつ勉強しています。</p>
<p>RVCは優れたGUI、ランタイムの整備、事前学習済みのモデルの用意など素晴らしい点が多いのですが、モデルの構造についてはやや古いように見えました。<br>
そこで<a href="https://arxiv.org/abs/2201.03545" target="_blank" rel="nofollow noopener noreferrer">ConvNext</a>や<a href="https://arxiv.org/abs/1907.05047" target="_blank" rel="nofollow noopener noreferrer">BlazeFace</a>を参考にモデルを軽量化し、かつ様々な工夫を追加することでより日本語のリアルタイム変換がうまくいくように改造を進めました。</p>
<p>これをちゃんと整備して使えるようにするかはまだ考えていませんが、今後の音声変換の他の研究に役立てば幸いです。</p>
<h1 id="%E3%82%B3%E3%83%BC%E3%83%89%2B%E9%87%8D%E3%81%BF">
<a class="header-anchor-link" href="#%E3%82%B3%E3%83%BC%E3%83%89%2B%E9%87%8D%E3%81%BF" aria-hidden="true"></a> コード+重み</h1>
<h2 id="%E5%AD%A6%E7%BF%92%E7%94%A8%E3%82%B3%E3%83%BC%E3%83%89(ddpn08%E3%81%95%E3%82%93%E3%81%AErvc-webui%E3%82%92%E3%83%95%E3%82%A9%E3%83%BC%E3%82%AF)">
<a class="header-anchor-link" href="#%E5%AD%A6%E7%BF%92%E7%94%A8%E3%82%B3%E3%83%BC%E3%83%89(ddpn08%E3%81%95%E3%82%93%E3%81%AErvc-webui%E3%82%92%E3%83%95%E3%82%A9%E3%83%BC%E3%82%AF)" aria-hidden="true"></a> 学習用コード(ddPn08さんのRVC-WebUIをフォーク)</h2>
<p><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__40dd87529755f" src="https://embed.zenn.studio/card#zenn-embedded__40dd87529755f" data-content="https%3A%2F%2Fgithub.com%2Fnadare881%2Frvc-webui%2Ftree%2Fmodel_v2%2Flib%2Frvc_v3" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://github.com/nadare881/rvc-webui/tree/model_v2/lib/rvc_v3" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/nadare881/rvc-webui/tree/model_v2/lib/rvc_v3</a></p>
<h2 id="weight-%2B-%E3%83%87%E3%83%A2%E3%83%A2%E3%83%87%E3%83%AB">
<a class="header-anchor-link" href="#weight-%2B-%E3%83%87%E3%83%A2%E3%83%A2%E3%83%87%E3%83%AB" aria-hidden="true"></a> weight + デモモデル</h2>
<p><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__94960bd495b5c" src="https://embed.zenn.studio/card#zenn-embedded__94960bd495b5c" data-content="https%3A%2F%2Fhuggingface.co%2Fdatasets%2Fnadare%2Frvc-v3j%2Ftree%2Fmain" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://huggingface.co/datasets/nadare/rvc-v3j/tree/main" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://huggingface.co/datasets/nadare/rvc-v3j/tree/main</a><br style="display:none">
あみたろの声素材工房さん(<a href="https://amitaro.net/" target="_blank" rel="nofollow noopener noreferrer">https://amitaro.net/</a>)の音声を使って学習したモデルを置いております。</p>
<h2 id="%E6%8E%A8%E8%AB%96%E7%94%A8%E3%82%B3%E3%83%BC%E3%83%89(vcclient%E3%81%AE%E3%83%95%E3%82%A9%E3%83%BC%E3%82%AF)">
<a class="header-anchor-link" href="#%E6%8E%A8%E8%AB%96%E7%94%A8%E3%82%B3%E3%83%BC%E3%83%89(vcclient%E3%81%AE%E3%83%95%E3%82%A9%E3%83%BC%E3%82%AF)" aria-hidden="true"></a> 推論用コード(VCClientのフォーク)</h2>
<p>下記のフォーク版を開発者用モードで動かすとv3を試せます。<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__fcbab651e2a1a" src="https://embed.zenn.studio/card#zenn-embedded__fcbab651e2a1a" data-content="https%3A%2F%2Fgithub.com%2Fnadare881%2Fvoice-changer" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://github.com/nadare881/voice-changer" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/nadare881/voice-changer</a></p>
<h1 id="%E6%94%B9%E9%80%A0%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88">
<a class="header-anchor-link" href="#%E6%94%B9%E9%80%A0%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88" aria-hidden="true"></a> 改造ポイント</h1>
<p>学習</p>
<ul>
<li>不要と思われるモジュールの除去</li>
<li>Convの近代化改修
<ul>
<li>depthwiseとpointwiseに分ける軽量化
<ul>
<li>Depthwiseには未来の情報を参照しないCausal Convolutionの導入</li>
<li>PointWiseにはLoRA亜種の導入</li>
</ul>
</li>
</ul>
</li>
<li>アップサンプリング+NSFのダウンサンプリングの高速化</li>
<li>generator自身を用いたaugmentationの導入</li>
<li>SegmentSizeの増加</li>
<li>bfloat16での学習</li>
</ul>
<p>推論</p>
<ul>
<li>kmeansによるindexの圧縮</li>
<li>faissのindexのパラメータ調整</li>
</ul>
<h2 id="%E4%B8%8D%E8%A6%81%E3%81%A8%E6%80%9D%E3%82%8F%E3%82%8C%E3%82%8B%E3%83%A2%E3%82%B8%E3%83%A5%E3%83%BC%E3%83%AB%E3%81%AE%E9%99%A4%E5%8E%BB">
<a class="header-anchor-link" href="#%E4%B8%8D%E8%A6%81%E3%81%A8%E6%80%9D%E3%82%8F%E3%82%8C%E3%82%8B%E3%83%A2%E3%82%B8%E3%83%A5%E3%83%BC%E3%83%AB%E3%81%AE%E9%99%A4%E5%8E%BB" aria-hidden="true"></a> 不要と思われるモジュールの除去</h2>
<h3 id="generator">
<a class="header-anchor-link" href="#generator" aria-hidden="true"></a> generator</h3>
<p>VITSは元々TTS用の構造で、その名残と思われるモジュールがいくつかありました。<br>
WaveNetのenc_qを教師に、HuBERT+Transformerのenc_pを学習させた後、WaveNetのflowで話者の特徴量を与えていましたが、HuBERTと後段のdecoder内のResNetのみで十分と考えたのでこれらを除いてHuBERTの特徴量をそのままdecoder(synthesizer)に入れるようにしました。<br>
また、従来はtransformerに入れる時点でHuBERTの特徴量を756次元から192次元にしてしまうのですが、ここで情報の損失が大きそうなのでdecoderには756次元のまま特徴量を入れるようにしました。</p>
<h3 id="discriminator">
<a class="header-anchor-link" href="#discriminator" aria-hidden="true"></a> discriminator</h3>
<p>DiscriminatorSは損失をみたところ0.25付近で固まっており、本物の音声と合成の音声の区別がついていなさそうなので削り、代わりにDiscriminatorPのperiodに1を追加しました。</p>
<h2 id="conv%E3%81%AE%E8%BF%91%E4%BB%A3%E5%8C%96%E6%94%B9%E4%BF%AE">
<a class="header-anchor-link" href="#conv%E3%81%AE%E8%BF%91%E4%BB%A3%E5%8C%96%E6%94%B9%E4%BF%AE" aria-hidden="true"></a> Convの近代化改修</h2>
<p>畳み込み層は空間方向とチャンネル方向に分割することでパラメータと計算量が抑えられることが知られていて、MobileNet以降の主流になっています。Generatorでは同じ次元でのresidual接続を繰り返すので、<a href="https://arxiv.org/abs/1907.05047" target="_blank" rel="nofollow noopener noreferrer">BlazeFace</a>を参考にdepthwiseとpointwiseを交互に繰り返すようにしました。Discriminatorでは畳み込み一回ごとにstrideを入れるので<a href="https://arxiv.org/abs/2201.03545" target="_blank" rel="nofollow noopener noreferrer">ConvNext</a>を元にdepthwise-&gt;pointwise-&gt;pointwiseに分割しました。また、kernelsizeは大きく、層は少なくするのがレイテンシを抑えるコツなのでそれを意識したパラメータに変えました。これにより大幅に計算時間と学習パラメータ数を減らすことができました。</p>
<h3 id="%E7%95%B3%E3%81%BF%E8%BE%BC%E3%81%BF%E5%B1%A4%E3%81%A7%E3%81%AEcausal-convolution%E3%81%AE%E5%B0%8E%E5%85%A5">
<a class="header-anchor-link" href="#%E7%95%B3%E3%81%BF%E8%BE%BC%E3%81%BF%E5%B1%A4%E3%81%A7%E3%81%AEcausal-convolution%E3%81%AE%E5%B0%8E%E5%85%A5" aria-hidden="true"></a> 畳み込み層でのCausal Convolutionの導入</h3>
<p>RVCの実行によく使われるVCClientでは入力の音声に過去の音声を繋げることで品質を確保しています。この使い方を考えた際、通常の畳み込みを用いると入力に用いた端にある音声部分の変換の質が悪くなりそうと思いました。そこで、未来の情報を参照しないCausal Convolutionをdepthwise畳み込みに入れることで、リアルタイム音声変換に特化させました。</p>
<h3 id="lora%E4%BA%9C%E7%A8%AE%E3%81%AE%E5%B0%8E%E5%85%A5">
<a class="header-anchor-link" href="#lora%E4%BA%9C%E7%A8%AE%E3%81%AE%E5%B0%8E%E5%85%A5" aria-hidden="true"></a> LoRA亜種の導入</h3>
<p><a href="https://arxiv.org/abs/2106.09685" target="_blank" rel="nofollow noopener noreferrer">LoRA</a>はLinear層と合わせてin_channels x r と r x out_channelsのLinear層を学習することで軽量にファインチューニングを行う技術です。このLoRAに用いる二つの行列をspeakerを表すembeddingから作成することで、話者ごとにLinear層をファインチューニングした状態を作れると考え、PointWise畳み込みにLoRAを導入しました。また、Discriminatorにも話者に紐づいたEmbeddingを与えることで、Discriminatorの精度を上げました。<br>
ただ、LoRAがちゃんと効いているかどうかは比較できていないです。</p>
<h2 id="%E3%82%A2%E3%83%83%E3%83%97%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0%2Bnsf%E3%81%AE%E3%83%80%E3%82%A6%E3%83%B3%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0%E3%81%AE%E9%AB%98%E9%80%9F%E5%8C%96">
<a class="header-anchor-link" href="#%E3%82%A2%E3%83%83%E3%83%97%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0%2Bnsf%E3%81%AE%E3%83%80%E3%82%A6%E3%83%B3%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0%E3%81%AE%E9%AB%98%E9%80%9F%E5%8C%96" aria-hidden="true"></a> アップサンプリング+NSFのダウンサンプリングの高速化</h2>
<p>段階的にupsamplingを行うupsample_rateについて、先に大きく割合を上げてしまうと計算量が増えてしまいます。これを[10, 6, 2, 2, 2]から[5, 6, 4, 4]に変えることで高速化を行いました。<br>
またSinGenで作るノイズ付きSin波を層ごとにnoise_convで毎回変換するのはかなりの計算時間をとっていることが分かりました。そこで、upsample_rateの逆に段階的にdownsamplingすることで高速化を行いました。また、singenは倍音を考慮するharmonic_numが0になっていましたが、17倍音まで考慮するようharmonic_num=16に設定することで音声合成のヒントを与えました。</p>
<h2 id="generator%E3%82%92%E7%94%A8%E3%81%84%E3%81%9Faugmentation%E3%81%AE%E8%BF%BD%E5%8A%A0">
<a class="header-anchor-link" href="#generator%E3%82%92%E7%94%A8%E3%81%84%E3%81%9Faugmentation%E3%81%AE%E8%BF%BD%E5%8A%A0" aria-hidden="true"></a> generatorを用いたAugmentationの追加</h2>
<p>音声変換の学習の問題点として、入力音声を用いて入力音声を予測している点です。ContentVecのような話者性を除いたHuBERTを用いていれば問題ないのですが、日本語版HuBERTを用いた場合HuBERTの特徴から話者性を学習してしまい話者性の変換度が落ちてしまいます。そこで、generatorで話者idとピッチを入れ替え音声を変換したものをHuBERTに入れ、そのembeddingを混ぜて学習を行うことで話者の変換がよりうまくいくようになりました。</p>
<h2 id="segmentsize%E3%81%AE%E5%A2%97%E5%8A%A0">
<a class="header-anchor-link" href="#segmentsize%E3%81%AE%E5%A2%97%E5%8A%A0" aria-hidden="true"></a> SegmentSizeの増加</h2>
<p>RVCでは学習時音声のサイズをsegment_sizeでトリミングしてからsynthesizerに入れ、discriminatorで比較しています。このパラメータは短くしても効率的に学習できるとVITSの論文には書いてあるのですが、RVCの設定値は秒になおすと0.24秒でした。日本語は1秒に5字喋れるらしいですが、これはあまりに短かったので、Discriminatorを軽くした分このパラメータを1.5秒分にまで増加させました。これについても変化は実感できていないのですが、効いてそうな気はします。</p>
<h2 id="bfloat16%E3%81%A7%E3%81%AE%E5%AD%A6%E7%BF%92">
<a class="header-anchor-link" href="#bfloat16%E3%81%A7%E3%81%AE%E5%AD%A6%E7%BF%92" aria-hidden="true"></a> bfloat16での学習</h2>
<p>RVCでは混合精度を用いて学習していますが、これにはfloat16を用いています。float16はfloat32と比較して表現できる桁数が異なるので学習が不安定になりやすいのですが、これをbfloat16に置き換えることで安定して学習できるようにしました。</p>
<h2 id="kmeans%E3%81%AB%E3%82%88%E3%82%8Bindex%E3%81%AE%E5%9C%A7%E7%B8%AE">
<a class="header-anchor-link" href="#kmeans%E3%81%AB%E3%82%88%E3%82%8Bindex%E3%81%AE%E5%9C%A7%E7%B8%AE" aria-hidden="true"></a> kmeansによるindexの圧縮</h2>
<p>RVCで特徴量を検索する際、検索対象は学習に用いたembeddingのすべてを対象にしていました。<br>
これだと推論に時間がかかってしまうので、MiniBatchKmeansを用い、検索対象をkmeansのクラスタ中心に置き換えることでindexの軽量化と高速化を実現しました。これはddPn08さんのRVC-WebUIに実装済みです。(一方でこれにより学習データ中には少ない音素への変換は悪くなってしまうのでオプションにしています。)<br>
VCClientのアップデートにより検索対象のembeddingをindexに復元するようになったので没にしたのですが、PCA+RandomRotationによる次元方向の圧縮も検討していました。ただ、これも需要が出てきたら復活させるかもしれないです。</p>
<h2 id="faiss%E3%81%AEindex%E3%81%AE%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF%E8%AA%BF%E6%95%B4">
<a class="header-anchor-link" href="#faiss%E3%81%AEindex%E3%81%AE%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF%E8%AA%BF%E6%95%B4" aria-hidden="true"></a> faissのindexのパラメータ調整</h2>
<p>faissのindexについてデータ数が多い時を想定してFastScanを提案していたのですが、データ数が少ない時は逆にスループットが増えてしまいました。そこで、パラメータ数に応じてFastScanとIVFのみを切り替えるようにしました。これはddPn08さんのRVC-WebUIに実装済みです。<br>
また、初期にn_probeを増やすより検索結果の加重平均をとる方がより高速に良い結果を得られると提案していたのですが、実は近似近傍探索の精度はあまりいらず加重平均すら不要であるとわかりました。そこで加重平均をとる部分をVCClientから除くことでVCClientのCPU負荷を下げました。<br>
(ついでに音声のresampleをtorchaudioのresampleに置き換えることで、ここの部分も高品質化かつ高層化を行いました。)多分最新版では反映されていると思います。</p>
<h1 id="%E4%BB%8A%E5%BE%8C%E3%81%AE%E9%96%8B%E7%99%BA%E4%BA%88%E5%AE%9A">
<a class="header-anchor-link" href="#%E4%BB%8A%E5%BE%8C%E3%81%AE%E9%96%8B%E7%99%BA%E4%BA%88%E5%AE%9A" aria-hidden="true"></a> 今後の開発予定</h1>
<p>VITSのアップサンプリングベースモデルでの改良はある程度うまくいき、十分な高速化ができました。</p>
<p>ただ最近、NSF-HiFiGANに代わる<a href="https://github.com/charactr-platform/vocos/tree/main" target="_blank" rel="nofollow noopener noreferrer">Vocos</a>という音声合成のモジュールを見つけ、これを用いると段違いの高速化ができそうにみえました。音声変換を行うにはまだいろいろ工夫が必要なのですが、こちらを用いた音声変換の開発に移ろうと思います。今回作成したv3は本家の人に投げて改良に組み込んでもらえたら嬉しいなぁくらいでいます。上手い感じにだれか組み込んでください。応援しています。</p>


RVCを軽量化したv3を作ってみた

学習用コード(ddPn08さんのRVC-WebUIをフォーク)

推論用コード(VCClientのフォーク)

不要と思われるモジュールの除去

畳み込み層でのCausal Convolutionの導入

アップサンプリング+NSFのダウンサンプリングの高速化

generatorを用いたAugmentationの追加

Discussion