🔉

どんどん増えるRoformerモデル

に公開
2

はじめに

どうも、うんわです。
BS-RoformerやMel-Band-Roformerの微調整が最近かなり活発になってきています。
この記事では更新されたUVR5や新しいモデルについて紹介します。

UVR5

UVR5を開発しているAnjok氏が復帰し、UVR5のBeta版が更新されました。
Windows用フルインストール
位相修正機能のアップデートパッチ
GeForce RTX 50シリーズ(Blackwell 2.0)用のアップデート
Mac(ARM64)用
Mac(x86_64)用

オーバーラップのバグが修正され、Music Source Separation Trainingリポジトリ準拠となりました。(オーバーラップが多いほど遅いが高品質)
dim_tではなく、chunk_sizeを直接使用するようになりました。
私のInst v1eモデルやBig beta5eモデルなど濁り感をできるだけ減らすようにトレーニングされたモデルのノイズを除去するPhase SwapperやPhase Rotateなどが追加されました。
その他にもバグ修正や機能の追加などが行われているようですが、追いきれなかったので割愛します。

評価手法

新たな評価手法がmvsepの品質チェッカーに追加されています。
BleedlessとFullnessスコアです。
Bleedlessはターゲットとするステムに他のステムの音がどれだけ漏れていないかを表すスコアです。
例えば、ボーカル向けモデルならボーカルに楽器の音やノイズがどれだけ混ざっていないかを示しています。
Fullnessはターゲットとするステムがどれだけ「豊かな」音かを表すスコアで、濁り感や籠もり感の少なさを表しています。本来出ているべき音がちゃんと出ているかを表しているとも言えます。
どちらもスコアが高いほど良いです。
Bas Curtiz氏がRoformerモデルのBleedless・Fullnessスコアをスプレッドシートにまとめています。

モデル

私がBS-Roformer LargeV1やMel-Band-Roformer BigシリーズInstシリーズFTシリーズをリリースして以来、Roformer系モデルがかなり増えてきました。新しいモデルをいくつか紹介します。

becruily氏のvocalsモデルInstrumentalモデルKaraokeモデル

Gabox氏のvocalsモデルInstrumentalモデル

aufr33氏・Viperx氏のKaraokeモデル

aufr33氏のDenoiseモデルDereverbモデル

また、私のモデルについても少し紹介します。

Big Beta6X (重み) (コンフィグ)
今まで私がアップロードしてきたMel-Band−Roformerモデルの中では最大のモデルです。
Multiデータセットによる評価でオープンなウェイトの中では現在最高のSDRを記録しています。
5eほどではないですがFullnessも考慮されています。加えて管楽器の漏れを大幅に軽減しました。

BS-Roformer Revive 2 (重み) (コンフィグ)
Mel−Band RoformerではなくBS-Roformer Viperx 1297の微調整モデルです。FT2 Bleedlessよりも更にボーカルのBleedlessスコアを高めました。ボーカルのBleedlessスコアは現状最高の40.07を記録しています。

Inst v1e+ (重み) (コンフィグ)
Inst v1eモデルを改良したインストゥルメンタル用モデルです。ノイズが大幅に軽減されています。
Fullnessスコアはノイズを加えると高くなってしまう欠点が報告されています。v1e+はv1eよりFullnessスコアは下がってしまっていますが,その他のメトリックではv1e+のほうが優れています。

Big Beta5e (重み) (コンフィグ)
位相最適化を犠牲にボーカルのFullnessスコアを最大限に高めたモデルです。Multiデータセットによる評価でFullnessスコア20.7709を記録しています。ただし、激しい曲で使用するとノイズ問題が発生します。

FT2 bleedless (重み) (コンフィグ)
ボーカルのBleedlessスコアを最大限に高めたモデルです。Bleedlessスコア39.3007を記録しており、現状最高です。

Discussion

アイエンアイエン

うんわさん、初めまして。

早速UVRでうんさわんのFT2 bleedlessを試させていただいのですが、このモデル凄すぎです!
ご説明にあったとおり、抽出したボーカルに対して他のStemのBleedが全く無かったのはもちろんのこと、Reverbも全く犠牲になる事無く綺麗に抽出できました!
大袈裟に聞こえるかも知れませんが、素人の私にとっては正直「これ以上の分離はあり得るのだろうか」と思える程のとんでもないクオリティでした。本当に感動しています。

今回のモデルに限らず、これまでの数あるモデルもオープンかつ無料で公開してくださり心から感謝申し上げます。私自身エンジニアでも何でもありませんが、ただただお礼を申し上げたいが為だけに今回Zennのアカウントを作成しました。

ところで、今後のモデル開発・執筆の励みになればと思い心ばかりのバッジ(投げ銭)を送ろうとしたのですが、うんわさんのポリシー(?)でバッジの受け取り設定はされていないのでしょうか。中には私と同じ考えの読者もいる可能性がありますので、もしよろしければバッジ受け取りの設定を今後ご検討ください。

まだまだ寒い日が続いておりますので、どうかお身体にお気を付けてお過ごしください。
心より応援しております!

foowa2foowa2

感谢你我的朋友,爱来自中国👍