🌊
Stable Diffusionからの概念消去⑲：AdaVD（論文）

2025/03/29に公開
機械学習
 Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters (CVPR2025)丸数字を
http://blog.livedoor.jp/blogfire-it_skill/archives/43111064.html
からコピペしているのですがどうやら19の表示はこれまでと変わってしまうようです.
ICLR2025を見ていっていたのですがCVPR2025に移行します. 採択論文は
https://cvpr.thecvf.com/Conferences/2025/AcceptedPapers
で確認できます (2025/03/16現在).

 書籍情報Yuan Wang, Ouxiang Li, Tingting Mu, Yanbin Hao, Kuien Liu, Xiang Wang, and Xiangnan He. Precise, fast, and low-cost concept erasure in value space: Orthogonal complement matters, 2024.

 関連リンク公式実装
arXiv

 TL; DR著者らがまとめた貢献をここに示します.
消去の効率性と他の概念の維持性能を両立し, 移植性にも優れた手法であるAdaptive Value Decomposer (AdaVD)を提案.
モデルの知識への影響を最小限に抑えるdynamic shift factorを導入.
正確で高速かつ低コストでの概念消去を達成.

 記法手法に入る前に, この論文で使われる記法を確認します. 潜在空間においてノイズ zt\bold{z}_tzt​ とtimestep ttt, embedding C\bold{C}C が与えられたとき, モデル εθ(zt,t,C)\varepsilon_{\theta}(\bold{z}_t, t, \bold{C})εθ​(zt​,t,C) は加えられたノイズを予測しています. training-freeな概念消去の場合, ノイズをtarget conceptのembeddingにもつけて εθ(zt,t,C,Ct)\varepsilon_{\theta}(\bold{z}_t, t, \bold{C}, \bold{C}_t)εθ​(zt​,t,C,Ct​) などとしたりします.
U-Netにはテキストの情報を取り込むためにcross-attention (CA) 層があります. ここではattention map A=QK⊤d\bold{A}=\dfrac{\bold{Q}\bold{K}^\top}{\sqrt{d}}A=d​QK⊤​ が計算されます.

 Token-wise Target Embedding Pre-processingテキストが与えられると, CLIP Text Encoderによって埋め込みが計算されます. トークン化されたテキストはprefixとして[SOT], [EOT]を先頭と末尾に付与して固定トークン長 lll を実現し, その後ろは[EOT]でpaddingします. トークンは DcD_cDc​ 次元のベクトルによって特徴づけされます. ここでは, 概念 Ct⊤∈Rl×Dc\bold{C}_t^\top\in\mathbb{R}^{l\times D_c}Ct⊤​∈Rl×Dc​ embeddingに注目ます. Ct⊤\bold{C}_t^\topCt⊤​ の iii 列目を cti\boldsymbol{c}_t^icti​ とし, lll 個あるトークンの iii 番目に対応します. target conceptが持つ重要な情報を強調するために, promptのlast subject tokenの埋め込みを[SOT]以外のトークン位置に複製します. 図にすると明快で, 下図のようになります.
これを行うことによって, last subject tokenがprompt全体を「見る」ことができると主張しています. 定式化しておくと, 変更後の埋め込み行列 C~t\tilde{\bold{C}}_tC~t​ をcross attention層に入力し V~t∈Rl×d\tilde{\bold{V}}_t\in\mathbb{R}^{l\times d}V~t​∈Rl×d を得ます.
V~t∈Rl×d=C~tWV=[ct1,ctk,…,ctk⏟l−1]⊤WV
\tilde{\bold{V}}_t\in\mathbb{R}^{l\times d}=\tilde{\bold{C}}_t\bold{W}_V=\left[\boldsymbol{c}_t^1,\underbrace{\boldsymbol{c}_t^k,\ldots,\boldsymbol{c}_t^k}_{l-1}\right]^\top\bold{W}_V
V~t​∈Rl×d=C~t​WV​=​ct1​,l−1ctk​,…,ctk​​​​⊤WV​ここで, ct1\boldsymbol{c}_t^1ct1​ は[SOT]に対応し, ctk\boldsymbol{c}_t^kctk​ はlast subject tokenに対応し, 全体のトークン数 lll は変化しません.

 Orthogonal Value Decomposition提案手法では, 元のpromptを, target conceptによって張られる部分空間の直交補空間に射影することで概念消去を行います. これはU-Netのcross attention層で学習されたvalue-spaceの空間で実装されます.
まず, [SOT]に対しては概念消去を行いません. これはprefixとして機能しており, 意味的に有用な情報を持たないからです. 先ほど計算した V~t\tilde{\bold{V}}_tV~t​ から始め, V~t⊤\tilde{\bold{V}}_t^\topV~t⊤​ の iii 列目を v~ti\tilde{\boldsymbol{v}}_t^iv~ti​ とします. [SOT]を除外するにはここをゼロベクトルにすればよく, Vt=[0,v~t2,…,v~tl]\bold{V}_t=[\boldsymbol{0}, \tilde{\boldsymbol{v}}_t^2,\ldots,\tilde{\boldsymbol{v}}_t^l]Vt​=[0,v~t2​,…,v~tl​] と書けます. この行列を消去に用います. 提案手法では単一概念も複数概念も消去でき, 複数概念の消去は単一概念の消去を拡張しただけなのでここでは複数概念のみを扱います.
消去したいtarget concepの数を nnn とします. n=1n=1n=1 が単一概念です. 先ほど得られたvalue行列の集合を {Vth∈Rl×d}h=1n\{\bold{V}_t^h\in\mathbb{R}^{l\times d}\}_{h=1}^n{Vth​∈Rl×d}h=1n​ と表します. vth,i\boldsymbol{v}_t^{h,i}vth,i​ を (Vth)⊤(\bold{V}_t^h)^\top(Vth​)⊤ の iii 番目の列とします. これは当然 hhh 番目のtarget conceptの iii 番目のトークンを示しています. 消去では {vth,i}h=1n\{\boldsymbol{v}_t^{h,i}\}_{h=1}^n{vth,i​}h=1n​ が張る部分空間の直交補空間 span⊥({vth,i}h=1n)\mathrm{span}^\perp\left(\{\boldsymbol{v}_t^{h,i}\}_{h=1}^n\right)span⊥({vth,i​}h=1n​) に元のpromotを射影する形で行います. この射影を計算するためにはグラムシュミットの直交化法で {vth,i}h=1n\{\boldsymbol{v}_t^{h,i}\}_{h=1}^n{vth,i​}h=1n​ の張る部分空間に対する nnn 個の直交正規規定ベクトル {oth,i}h=1n\{\boldsymbol{o}_t^{h,i}\}_{h=1}^n{oth,i​}h=1n​ を計算します. ここで, {vth,i}h=1n\{\boldsymbol{v}_t^{h,i}\}_{h=1}^n{vth,i​}h=1n​ は線型独立で基底であると仮定します. 実際に複数の概念を消去する際にはそれぞれのtarget conceptは意味的に異なると考えられるのでこの仮定を採用しています. すると射影は以下のように計算できます.
vri=Pspan⊥({vth,i}h=1n)vi=Pspan⊥({oth,i}h=1n)vi=(Id−Pspan({oth,i}h=1n))vi=vi−∑h=1n(oth,i)⊤vioth,i
\begin{align*}
    \boldsymbol{v}_r^i&=\bold{P}_{\mathrm{span}^\perp\left(\{\boldsymbol{v}_t^{h,i}\}_{h=1}^n\right)}\boldsymbol{v}^i=\bold{P}_{\mathrm{span}^\perp\left(\{\boldsymbol{o}_t^{h,i}\}_{h=1}^n\right)}\boldsymbol{v}^i \\
    &=\left(\bold{I}_d-\bold{P}_{\mathrm{span}\left(\{\boldsymbol{o}_t^{h,i}\}_{h=1}^n\right)}\right)\boldsymbol{v}^i \\
    &=\boldsymbol{v}^i-\sum_{h=1}^n\left(\boldsymbol{o}_t^{h,i}\right)^\top\boldsymbol{v}^i\boldsymbol{o}_t^{h,i}
\end{align*}
vri​​=Pspan⊥({vth,i​}h=1n​)​vi=Pspan⊥({oth,i​}h=1n​)​vi=(Id​−Pspan({oth,i​}h=1n​)​)vi=vi−h=1∑n​(oth,i​)⊤vioth,i​​これを図にすると
の右上のようになります. ちなみにグラムシュミットの直交化法を用いない方法もありますが, ここでは省略します (論文ではAppendix Eで述べられています).
続いては右下のAdaptive Erasing Shiftについて述べます.

 Adaptive Erasing Shift実際には各トークン位置でのトークン単位の関連度は異なることがあります. 例えば下図では同じpromptに対して異なる V\bold{V}V を用いた場合の生成結果が示されています. ここでは[EOT]とそれ以外のvalueを分離して表現し, [SOT]は簡単のために Vcontent\bold{V}_{\mathrm{content}}Vcontent​ に含まれています.
これを見てみると, V[EOT]\bold{V}_{\mathrm{[EOT]}}V[EOT]​ が 0\bold{0}0 の場合はtarget conceptに近しい出力が得られています. すると, promptの内容が[EOT]トークンよりも多くの情報を持つと考えられます. この観察結果から, 先ほど得られた vrj\boldsymbol{v}_r^jvrj​ を改良してトークン単位で適応的に消去操作を調整することを考えます. この適応的な調整は他の概念の保持を目的としているようです (これをしないと他の概念での性能が低下する).
鍵となるのは以下の論文です.
https://openreview.net/forum?id=K30wTdIIYc
この論文では, 画像生成においてベクトルの大きさより角度情報が意味伝達において重要だと述べられています. これを利用して, prompt tokenとtarget tokenのvalueベクトルのcosine similarityを用いて消去強度を調整するためのshift factor (erasing shift)を計算します. このfactorはcosine similarityが小さいほど低くなるようにします.
まず, shift factor δ(⋅,⋅):Rd×Rd→R\delta(\cdot,\cdot):\mathbb{R}^d\times\mathbb{R}^d\to\mathbb{R}δ(⋅,⋅):Rd×Rd→R とします. すると先ほどの vri\boldsymbol{v}_r^ivri​ の導出の式は
vri=vi−∑h=1nδ(vth,i,vi)(∑k=1nwhk(otk,i)⊤vi)vth,i
\boldsymbol{v}_r^i=\boldsymbol{v}^i-\sum_{h=1}^n\delta\left(\boldsymbol{v}_t^{h,i},\boldsymbol{v}^{i}\right)\left(\sum_{k=1}^nw_{hk}\left(\boldsymbol{o}_t^{k,i}\right)^\top\boldsymbol{v}^i\right)\boldsymbol{v}_t^{h,i}
vri​=vi−h=1∑n​δ(vth,i​,vi)(k=1∑n​whk​(otk,i​)⊤vi)vth,i​となります. whkw_{hk}whk​ は {vth,i}h=1n\{\boldsymbol{v}_t^{h,i}\}_{h=1}^n{vth,i​}h=1n​ を {oth,i}h=1n\{\boldsymbol{o}_t^{h,i}\}_{h=1}^n{oth,i​}h=1n​ に変換する射影行列の hkhkhk 成分です.
先ほどの δ\deltaδ ですが,
δ(x,y)=s1+e−p(cos⁡(x,y)−ε)
\delta(\boldsymbol{x},\boldsymbol{y})=\dfrac{s}{1+e^{-p(\cos(\boldsymbol{x}, \boldsymbol{y})-\varepsilon)}}
δ(x,y)=1+e−p(cos(x,y)−ε)s​とします. また, 0<ε<10<\varepsilon<10<ε<1 です. 負のcosine similarityはprompt tokenとtarget tokenの関連性が非常に低いことを示します.
全体像をまとめると下図のようになります.

 実験いつものように実験設定を確認してから結果を見ます. なお, appendixにある結果は原則としてここでは触れないのでその部分に関する記述は論文のものから省略しています.

 実験設定CA (ConAbl), ESD, SPM, MACE, NP (Negative Prompt), SLDを対象に消去を行います. 最後の2つはtraining-freeの手法です. original SDにはStable Diffusion 1.4を使用し, 画像生成ではDPM-solverで30 stepsの生成を行います. CFGは全て7.5で固定します.
評価ですが, SPMと同様に行います. object, styleに対してそれぞれ80, 30のpromptを用意し, 10枚/promptの生成を行って評価に使用します. 評価指標はCLIP Score, FIDです.

 objectの消去結果論文ではspecific instancesと書かれていますがobjectsのことです. 単一概念としてSnoopyを消去し, その次にSnoopyとMickey, さらにその次にSnoopy, Mickey, Spongebobの同時消去を試します. まずは定量評価から見ます.
提案手法は全ての場合においてCLIP Scoreが低い (消去性能が高い)またはFIDが低い (他の概念維持ができている)という結果になりました. 特にFIDは他の手法と比較してもかなり低くなっていて, これはOriginal SDとそっくりの画像を生成できているということになります. 続いて生成結果を確認します.
論文ではSnoopyの消去についてSPM, NP, SLDはできていないと書かれていますがSPM以外はSnoopyと主張するのは難しいように見えます (論文には「耳や形状などの特徴が残っている」とされていますが, その特徴を満たしてかつSnoopyとは言えないキャラクターも作ることができそうなので個人的には無理があるように見えます. 特にNPなどは人に見せてもSnoopyとは言わないように思えます.). これはLLM-as-a-Judgeとか使えばある程度の信頼性ができそうです. ただ, 隣に移動してMickeyとの同時消去の結果をみるとNPとSLDの2手法ともMickeyを消去できていなさそうです. MACEについてはSnoopyの消去時点でなぜかSpongebobの生成結果が破綻してしまいました.

 styleの消去結果Gogh, Picasso, Monetを消去します. objectとは異なり, 単一概念の消去のみを行います. まずは定量評価の結果を確認します.
FIDはobjectと同様の結果ですがCLIP Scoreは異なりますが, そのことについては述べられていません. 他の手法との比較については定性結果で行います.
NPは定量評価からも分かるように, CLIP Scoreはいい場合が多いですがGogh styleの消去はできていなさそうに見えます. これはSLDも同様です. この2手法は他の概念 (Picasso, Monet)にも大きく影響を及ぼしています.
私見これは私見ですが, この生成結果と先ほどの定量結果を見比べるとCLIP Scoreが「消去できているか」を表していないことが示唆されます. 例えばGoghを消去した場合, CLIP Score上ではSPM, 提案手法, NP, SLD, MACE, CAの順で消去性能が高いと言えますが実際には (CAを除いた)用いた手法群の中ではNPとSLDは消去に失敗し, それらよりCLIP Scoreが悪いMACEについては成功しています. CLIP Scoreは簡単に言うと, promptと生成画像の一致度を表すので, MACEはよりVan Gogh styleを含むpromptを反映していると言えますがそれは適切な評価なのでしょうか. 多くの概念消去の研究ではこの部分が置き去りにされているように見えますし, 国際会議の査読を見ても査読者からの指摘もないのでしばらくこれが続くように思えます.

 消去時間消去性能が高くてもそれを達成するまでの時間が長くては本末転倒です. ここではそれについて測定を行います. 実験は全て1枚のNVIDIA A40 GPUで行われ, 10概念を消去し10枚の画像生成を行います. まず, 一般に概念消去には3つの工程があります.
学習データの準備: これは例えばCA (ConAbl)がoriginal SDの生成画像を大量に要求したりします.
実際の消去: fine-tuningしたりする工程です.
生成: 画像生成をする際に余分な手順が発生すると時間がかかります.
この3つに対してそれぞれ時間を計測したのが下表です.
CAはデータ準備に, SPMはfine-tuningに多くの時間がかかっています. MACEは「多くの時間」と言うほどではないと思いますが, SLDや提案手法と比較すると長い時間かかっています. それでもトータルで9分程度です. training-freeのSLDがfine-tuningやデータ準備に時間がかからないのは当然ですが, 提案手法も高速に動作します. 基底の計算が必要なため, 1枚あたり0.8秒の追加時間が必要です.

 消去概念の解釈提案手法では vi\boldsymbol{v}^ivi を vri\boldsymbol{v}_r^ivri​ に置き換えていました. 手法パートでは理論的な説明でアプローチしましたが, ここでは実験的に確認するために, vi−vri\boldsymbol{v}^i-\boldsymbol{v}_r^ivi−vri​ を生成します.
3つあるブロックの各ブロックにおいて左がoriginalの生成, 真ん中が今回可視化したもの, 右が提案手法で生成したものです. 真ん中の部分をみると, non-target conceptでは意味不明な画像が生成されています. これは意味的にはなにもないことを示唆していて, 他の概念への影響が軽微であることがわかります. 一方でtarget conceptでは優位にtarget conceptの特徴が現れていて, 正しく消去できていることがわかります. ablationは論文にはないのですが, shift factorの有無での比較があれば面白そうです.

 応用最後に, Implicit Promptを用いた場合, 画像編集, 移植性などのタスクでの実験を行います.
例えばrainyを明示的に指定しなくても, original Chilloutmixは「人々が傘を持っている」や「水が輝く道路」などの要素から雨を生成していますがrainyを消去すると雨がなくなっています. 個人的にはその代償として「傘をさす」や「水が輝く道路」などの要素がなくなっていることが気になります. より現実的には傘は日傘になるべきでしょうし (あるいは傘を閉じ忘れている状態), 雨上がりの状況では「水が輝く道路」もありえるでしょう.
他の2タスクに関しても同様に概念消去の効果が出ているのではと思います (画像編集については何をしているのか不明ですが).

 思ったこと直交補空間を用いた定式化は目新しくて興味深く読めました.
実験には難ありという感じです. SPMの研究に則った評価実験をしていますが, SPMの研究からは大きく規模を縮小しています (例えば定番であるMSCOCOでの実験がないなど)ので実験よりも手法のパートが評価されてのacceptかなと想像できます.
内容には関係ないですが, 少なくとも私のローカル環境ではAppendix Eへのハイパーリンクが適切に動作していないように見えます. TeXのコードを確認しましたが適切に参照されていたのでなにかしらの不具合かもしれません.

 参考文献Yuan Wang, Ouxiang Li, Tingting Mu, Yanbin Hao, Kuien Liu, Xiang Wang, and Xiangnan He. Precise, fast, and low-cost concept erasure in value space: Orthogonal complement matters, 2024.
Discussion

ログインするとコメントできます