Stable Diffusionからの概念消去⑲:AdaVD(論文)
Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters (CVPR2025)
丸数字を
からコピペしているのですがどうやら19の表示はこれまでと変わってしまうようです.
ICLR2025を見ていっていたのですがCVPR2025に移行します. 採択論文は
で確認できます (2025/03/16現在).
書籍情報
Yuan Wang, Ouxiang Li, Tingting Mu, Yanbin Hao, Kuien Liu, Xiang Wang, and Xiangnan He. Precise, fast, and low-cost concept erasure in value space: Orthogonal complement matters, 2024.
関連リンク
TL; DR
著者らがまとめた貢献をここに示します.
- 消去の効率性と他の概念の維持性能を両立し, 移植性にも優れた手法であるAdaptive Value Decomposer (AdaVD)を提案.
- モデルの知識への影響を最小限に抑えるdynamic shift factorを導入.
- 正確で高速かつ低コストでの概念消去を達成.
記法
手法に入る前に, この論文で使われる記法を確認します. 潜在空間においてノイズ
U-Netにはテキストの情報を取り込むためにcross-attention (CA) 層があります. ここではattention map
Token-wise Target Embedding Pre-processing
テキストが与えられると, CLIP Text Encoderによって埋め込みが計算されます. トークン化されたテキストはprefixとして[SOT], [EOT]を先頭と末尾に付与して固定トークン長
これを行うことによって, last subject tokenがprompt全体を「見る」ことができると主張しています. 定式化しておくと, 変更後の埋め込み行列
ここで,
Orthogonal Value Decomposition
提案手法では, 元のpromptを, target conceptによって張られる部分空間の直交補空間に射影することで概念消去を行います. これはU-Netのcross attention層で学習されたvalue-spaceの空間で実装されます.
まず, [SOT]に対しては概念消去を行いません. これはprefixとして機能しており, 意味的に有用な情報を持たないからです. 先ほど計算した
消去したいtarget concepの数を
これを図にすると
の右上のようになります. ちなみにグラムシュミットの直交化法を用いない方法もありますが, ここでは省略します (論文ではAppendix Eで述べられています).
続いては右下のAdaptive Erasing Shiftについて述べます.
Adaptive Erasing Shift
実際には各トークン位置でのトークン単位の関連度は異なることがあります. 例えば下図では同じpromptに対して異なる
これを見てみると,
鍵となるのは以下の論文です.
この論文では, 画像生成においてベクトルの大きさより角度情報が意味伝達において重要だと述べられています. これを利用して, prompt tokenとtarget tokenのvalueベクトルのcosine similarityを用いて消去強度を調整するためのshift factor (erasing shift)を計算します. このfactorはcosine similarityが小さいほど低くなるようにします.
まず, shift factor
となります.
先ほどの
とします. また,
全体像をまとめると下図のようになります.
実験
いつものように実験設定を確認してから結果を見ます. なお, appendixにある結果は原則としてここでは触れないのでその部分に関する記述は論文のものから省略しています.
実験設定
CA (ConAbl), ESD, SPM, MACE, NP (Negative Prompt), SLDを対象に消去を行います. 最後の2つはtraining-freeの手法です. original SDにはStable Diffusion 1.4を使用し, 画像生成ではDPM-solverで30 stepsの生成を行います. CFGは全て7.5で固定します.
評価ですが, SPMと同様に行います. object, styleに対してそれぞれ80, 30のpromptを用意し, 10枚/promptの生成を行って評価に使用します. 評価指標はCLIP Score, FIDです.
objectの消去結果
論文ではspecific instancesと書かれていますがobjectsのことです. 単一概念としてSnoopyを消去し, その次にSnoopyとMickey, さらにその次にSnoopy, Mickey, Spongebobの同時消去を試します. まずは定量評価から見ます.
提案手法は全ての場合においてCLIP Scoreが低い (消去性能が高い)またはFIDが低い (他の概念維持ができている)という結果になりました. 特にFIDは他の手法と比較してもかなり低くなっていて, これはOriginal SDとそっくりの画像を生成できているということになります. 続いて生成結果を確認します.
論文ではSnoopyの消去についてSPM, NP, SLDはできていないと書かれていますがSPM以外はSnoopyと主張するのは難しいように見えます (論文には「耳や形状などの特徴が残っている」とされていますが, その特徴を満たしてかつSnoopyとは言えないキャラクターも作ることができそうなので個人的には無理があるように見えます. 特にNPなどは人に見せてもSnoopyとは言わないように思えます.). これはLLM-as-a-Judgeとか使えばある程度の信頼性ができそうです. ただ, 隣に移動してMickeyとの同時消去の結果をみるとNPとSLDの2手法ともMickeyを消去できていなさそうです. MACEについてはSnoopyの消去時点でなぜかSpongebobの生成結果が破綻してしまいました.
styleの消去結果
Gogh, Picasso, Monetを消去します. objectとは異なり, 単一概念の消去のみを行います. まずは定量評価の結果を確認します.
FIDはobjectと同様の結果ですがCLIP Scoreは異なりますが, そのことについては述べられていません. 他の手法との比較については定性結果で行います.
NPは定量評価からも分かるように, CLIP Scoreはいい場合が多いですがGogh styleの消去はできていなさそうに見えます. これはSLDも同様です. この2手法は他の概念 (Picasso, Monet)にも大きく影響を及ぼしています.
私見
これは私見ですが, この生成結果と先ほどの定量結果を見比べるとCLIP Scoreが「消去できているか」を表していないことが示唆されます. 例えばGoghを消去した場合, CLIP Score上ではSPM, 提案手法, NP, SLD, MACE, CAの順で消去性能が高いと言えますが実際には (CAを除いた)用いた手法群の中ではNPとSLDは消去に失敗し, それらよりCLIP Scoreが悪いMACEについては成功しています. CLIP Scoreは簡単に言うと, promptと生成画像の一致度を表すので, MACEはよりVan Gogh styleを含むpromptを反映していると言えますがそれは適切な評価なのでしょうか. 多くの概念消去の研究ではこの部分が置き去りにされているように見えますし, 国際会議の査読を見ても査読者からの指摘もないのでしばらくこれが続くように思えます.
消去時間
消去性能が高くてもそれを達成するまでの時間が長くては本末転倒です. ここではそれについて測定を行います. 実験は全て1枚のNVIDIA A40 GPUで行われ, 10概念を消去し10枚の画像生成を行います. まず, 一般に概念消去には3つの工程があります.
- 学習データの準備: これは例えばCA (ConAbl)がoriginal SDの生成画像を大量に要求したりします.
- 実際の消去: fine-tuningしたりする工程です.
- 生成: 画像生成をする際に余分な手順が発生すると時間がかかります.
この3つに対してそれぞれ時間を計測したのが下表です.
CAはデータ準備に, SPMはfine-tuningに多くの時間がかかっています. MACEは「多くの時間」と言うほどではないと思いますが, SLDや提案手法と比較すると長い時間かかっています. それでもトータルで9分程度です. training-freeのSLDがfine-tuningやデータ準備に時間がかからないのは当然ですが, 提案手法も高速に動作します. 基底の計算が必要なため, 1枚あたり0.8秒の追加時間が必要です.
消去概念の解釈
提案手法では
3つあるブロックの各ブロックにおいて左がoriginalの生成, 真ん中が今回可視化したもの, 右が提案手法で生成したものです. 真ん中の部分をみると, non-target conceptでは意味不明な画像が生成されています. これは意味的にはなにもないことを示唆していて, 他の概念への影響が軽微であることがわかります. 一方でtarget conceptでは優位にtarget conceptの特徴が現れていて, 正しく消去できていることがわかります. ablationは論文にはないのですが, shift factorの有無での比較があれば面白そうです.
応用
最後に, Implicit Promptを用いた場合, 画像編集, 移植性などのタスクでの実験を行います.
例えばrainyを明示的に指定しなくても, original Chilloutmixは「人々が傘を持っている」や「水が輝く道路」などの要素から雨を生成していますがrainyを消去すると雨がなくなっています. 個人的にはその代償として「傘をさす」や「水が輝く道路」などの要素がなくなっていることが気になります. より現実的には傘は日傘になるべきでしょうし (あるいは傘を閉じ忘れている状態), 雨上がりの状況では「水が輝く道路」もありえるでしょう.
他の2タスクに関しても同様に概念消去の効果が出ているのではと思います (画像編集については何をしているのか不明ですが).
思ったこと
- 直交補空間を用いた定式化は目新しくて興味深く読めました.
- 実験には難ありという感じです. SPMの研究に則った評価実験をしていますが, SPMの研究からは大きく規模を縮小しています (例えば定番であるMSCOCOでの実験がないなど)ので実験よりも手法のパートが評価されてのacceptかなと想像できます.
- 内容には関係ないですが, 少なくとも私のローカル環境ではAppendix Eへのハイパーリンクが適切に動作していないように見えます. TeXのコードを確認しましたが適切に参照されていたのでなにかしらの不具合かもしれません.
参考文献
- Yuan Wang, Ouxiang Li, Tingting Mu, Yanbin Hao, Kuien Liu, Xiang Wang, and Xiangnan He. Precise, fast, and low-cost concept erasure in value space: Orthogonal complement matters, 2024.
Discussion