どんどん増えるRoformerモデル
はじめに
どうも、うんわです。
BS-RoformerやMel-Band-Roformerの微調整が最近かなり活発になってきています。
この記事では更新されたUVR5や新しいモデルについて紹介します。
UVR5
UVR5を開発しているAnjok氏が復帰し、UVR5のBeta版が更新されました。
Windows用フルインストール
位相修正機能のアップデートパッチ
Mac(ARM64)用
Mac(x86_64)用
オーバーラップのバグが修正され、Music Source Separation Trainingリポジトリ準拠となりました。(オーバーラップが多いほど遅いが高品質)
dim_tではなく、chunk_sizeを直接使用するようになりました。
私のInst v1eモデルやBig beta5eモデルなど濁り感をできるだけ減らすようにトレーニングされたモデルのノイズを除去するPhase SwapperやPhase Rotateなどが追加されました。
その他にもバグ修正や機能の追加などが行われているようですが、追いきれなかったので割愛します。
評価手法
新たな評価手法がmvsepの品質チェッカーに追加されています。
BleedlessとFullnessスコアです。
Bleedlessはターゲットとするステムに他のステムの音がどれだけ漏れていないかを表すスコアです。
例えば、ボーカル向けモデルならボーカルに楽器の音やノイズがどれだけ混ざっていないかを示しています。
Fullnessはターゲットとするステムがどれだけ「豊かな」音かを表すスコアで、濁り感や籠もり感の少なさを表しています。
どちらもスコアが高いほど良いです。
Bas Curtiz氏がRoformerモデルのBleedless・Fullnessスコアをスプレッドシートにまとめています。
モデル
私がBS-Roformer LargeV1やMel-Band-Roformer Bigシリーズ、Instシリーズ、FTシリーズをリリースして以来、Roformer系モデルがかなり増えてきました。新しいモデルをいくつか紹介します。
becruily氏のvocalsモデルとInstrumentalモデル
Gabox氏のvocalsモデルとInstrumentalモデル
aufr33氏・Viperx氏のKaraokeモデル
aufr33氏のDenoiseモデル、Dereverbモデル
また、私のモデルについても少し紹介します。
Big Beta5e (重み) (コンフィグ)
位相最適化を犠牲にボーカルのFullnessスコアを最大限に高めたモデルです。Multiデータセットによる評価でFullnessスコア20.7709を記録しています。現状最高です。ただし、激しい曲で使用するとノイズ問題が発生します。
FT2 bleedless (重み) (コンフィグ)
ボーカルのBleedlessスコアを最大限に高めたモデルです。Bleedlessスコア39.3007を記録しており、こちらも現状最高です。
Discussion
うんわさん、初めまして。
早速UVRでうんさわんのFT2 bleedlessを試させていただいのですが、このモデル凄すぎです!
ご説明にあったとおり、抽出したボーカルに対して他のStemのBleedが全く無かったのはもちろんのこと、Reverbも全く犠牲になる事無く綺麗に抽出できました!
大袈裟に聞こえるかも知れませんが、素人の私にとっては正直「これ以上の分離はあり得るのだろうか」と思える程のとんでもないクオリティでした。本当に感動しています。
今回のモデルに限らず、これまでの数あるモデルもオープンかつ無料で公開してくださり心から感謝申し上げます。私自身エンジニアでも何でもありませんが、ただただお礼を申し上げたいが為だけに今回Zennのアカウントを作成しました。
ところで、今後のモデル開発・執筆の励みになればと思い心ばかりのバッジ(投げ銭)を送ろうとしたのですが、うんわさんのポリシー(?)でバッジの受け取り設定はされていないのでしょうか。中には私と同じ考えの読者もいる可能性がありますので、もしよろしければバッジ受け取りの設定を今後ご検討ください。
まだまだ寒い日が続いておりますので、どうかお身体にお気を付けてお過ごしください。
心より応援しております!