🐡

Stable Diffusionからの概念消去㉑:GLoCE(論文)

に公開

Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation (CVPR2025)

引き続きCVPR2025採択論文を見ます.

書籍情報

Byung Hyun Lee, Sungjin Lim, and Se Young Chun. Localized concept erasure for text-to-image diffusion models using training-free gated low-rank adaptation, 2025.

関連リンク

問題設定

この論文での目標を示します. まず, 効果的な概念消去は以下の3つを満たすことが肝要です.

  1. Efficacy: 生成画像からtarget conceptを完全に消去する能力
  2. Specificity: 他の概念を維持し, それらの特徴がoriginalのtext-to-image modelと密接に一致すること.
  3. Robustness: 言い換えやその他攻撃手法に対して堅牢であること.

2番のSpecificityに関して, これまでの研究では評価に用いるpromptにtarget conceptが含まれていない場合に限定されていましたが, 含まれる場合でも他の概念は維持され, target conceptは消えていることが大事です. これは以下の局所的概念消去を解くことで実現できます.

局所的概念消去とは, 画像内の限られた領域に存在するtarget conceptを除去しつつ, その他の概念領域の整合性を維持し, 入力promptへの全体的な忠実性を保つ手法.

これを解く手法としてGLoCE (Gated Low-Rank Adaptation for Concept Erasing) を導入します. 手法は大きく3つに分解でき,

  1. 拡散モデルの各層の出力に対して概念消去を行う低ランク行列
  2. 他の概念を維持するためのゲート機構
  3. few-shot (少数の画像)によるゲート更新

です. それぞれについてみていきます.

概念消去を行う低ランク行列

提案手法はLEACEに着想を得ています. これは言語モデルの任意の層の出力に線形層を適用することで概念消去を行うものです.

https://openreview.net/forum?id=awIpKpwTwF

LEACEの具体的な定式化をみていきます. X\in\mathbb{R}^D をモデル内部に存在する任意の層の出力, Z をある概念に関する情報とし, 線形射影を T(X;P,b)=PX+b と定義します. ここで P\in\mathbb{R}^{D\times D}, b\in\mathbb{R}^D です. そして, XZ を線形に防護するとは, 条件付き分布 \mathbb{P}(X|Z=\cdot) が, T によって X から Z を予測した際の最悪の分布のひとつである場合を指します. この「防護」については

https://aclanthology.org/2022.emnlp-main.405/

を参照してください (と論文に書かれていますが, 「防護」というキーワードは登場しないです). さて, target conceptの埋め込みを X^{\mathrm{tar}}, target conceptに関連する情報を Z^{\mathrm{tar}} とすると, LEACEでは以下の最適化問題に帰着させています.

\min_{P, b}\mathbb{E}\left[\|PX^{\mathrm{tar}}+b-X{\mathrm{tar}}\|_2^2\right]

ただし, 制約条件として共分散行列 \mathrm{Cov}(PX^{\mathrm{tar}}, Z^{\mathrm{tar}}) がゼロ行列とします. これは以下のように解けます.

P^*=I-W^+QW,\quad b^*=(I-P^*)\mu^{\mathrm{tar}}

ここで新たに4つの文字が登場しましたが, それぞれ

  • W=(\mathrm{Cov}(X^{\mathrm{tar}})^{1/2})^+: whitening transformation
  • Q=(W\mathrm{Cov}(PX^{\mathrm{tar}}, Z^{\mathrm{tar}}))(W\mathrm{Cov}(PX^{\mathrm{tar}}, Z^{\mathrm{tar}}))^+: W\mathrm{Cov}(PX^{\mathrm{tar}}, Z^{\mathrm{tar}}) の列空間の直交射影行列
  • I: 単位行列
  • \mu^{\mathrm{tar}}=\mathbb{R}[X^{\mathrm{tar}}]: target conceptの平均ベクトル

です. なお, A^+A の擬似逆行列を表します. LEACEでは, この線形射影 P^*, b^* をモデルのすべての層の出力に適用する手法として"concept scrubbing"を提案しています. 先ほど触れたように, 言語モデルでの手法なので言語モデルに対しては高い性能を示しています. ところが, この P^* がfull-rankの行列なので計算コストの観点から非効率です. そのため, 提案手法ではこれを低ランク行列として用い, 推論のみで構築するアプローチによって少数画像での学習を目指します.

また, LEACEは元の埋め込み情報の損失を最小限に抑えますが, 拡散モデルの概念消去の研究の流れに基づいて, target conceptをanchor concept (論文ではmapping conceptと述べられているのでこちらを採用します.)の埋め込みに変換する手法を採用します. 一般的に, 同じトークン位置で X^{\mathrm{tar}}X^{\mathrm{map}} に類似するよう学習しますが, target conceptやmapping conceptは局所的に登場するので, トークンの位置が一致しないという問題があります. そのため, 提案手法では直接mappingするのではなく, PCAを用いて X^{\mathrm{map}} のいくつかの主成分が張る部分空間に対して X^{\mathrm{tar}} を直交射影します.

まず, 概念の共分散行列 \mathrm{Cov}(X) が低ランクであることを確認するために, Stable Diffusion 1.4で画像を生成する際に, 各層の埋め込みを収集します. 1回のforward passで数千のトークン埋め込みを取得し, denoisingの複数のtimestepで収集します. これらの埋め込みを重ねた行列に対して特異値分解を

VSV^\top=\mathrm{Cov}(X)

の形式で行い, そのスペクトルを解析します. 結果は以下のようになっており, ほとんどの特異値は無視できるほどに小さいことがわかります. つまり, 概念ごとに重要な特異値の数は限られていることが示唆されます.

この観察結果を利用して消去手法を構築していきます.

まず, \hat{V}^{\mathrm{map}}\in\mathbb{R}^{D\times r_1} を, \mathrm{Cov}(X^{\mathrm{map}}) のtop-r_1 特異値に対応する主成分と定義します. ただし, 低ランクを目指すので r_1\ll D です. 続いて, P^{\mathrm{map}}=\hat{V}^{\mathrm{map}}(\hat{V}^{\mathrm{map}})^\top をmapping conceptの空間への直交射影行列とします. target conceptを含む埋め込み X^{\mathrm{tar}} をmapping conceptの部分空間に射影するために, 最適化問題を以下の形に変更する必要があります.

\min_{P, b}\mathbb{E}\left[\|PX^{\mathrm{tar}}+b-\eta (P^{\mathrm{map}}(X{\mathrm{tar}}-\mu^{\mathrm{tar}}+)\mu^{\mathrm{map}})\|_2^2\right]

ここでも当然 \mathrm{Cov}(PX^{\mathrm{tar}}, Z^{\mathrm{tar}})=\bold{0}, \mu^{\mathrm{map}}=\mathbb{E}[X^{\mathrm{map}}] です. \eta はハイパーパラメータです. これを解く際には, いままで曖昧にしてきた情報 Z について定義する必要があります. そこで, 少数の画像を用いてtarget conceptの共分散行列の特異値分解を計算します.

V^{\mathrm{tar}}S^{\mathrm{tar}}(V^{\mathrm{tar}})^\top=\mathrm{Cov}(X^{\mathrm{tar}})

\hat{V}^{\mathrm{tar}} をtop-r_2 の特異値に対応する主成分とすることで,

Z^{\mathrm{tar}}=\hat{V}^{\mathrm{tar}}(\hat{V}^{\mathrm{tar}})^\top(X^{\mathrm{tar}}-\mathbb{E}[X^{\mathrm{tar}}])+\mathbb{E}[X^{\mathrm{tar}}]

と定義します. Z^{\mathrm{tar}}X^{\mathrm{tar}} の低ランクな共分散行列を持つため高い相関を持ちます. このとき, 最適化問題の解は

P^*=\eta\hat{V}^{\mathrm{map}}(\hat{V}^{\mathrm{map}})^\top\left(I-\hat{V}^{\mathrm{tar}}(\hat{V}^{\mathrm{tar}})^\top\right),\quad b^*=\eta\mu^{\mathrm{map}}-P^*\mu^{\mathrm{tar}}

です. 直感的には, X^{\mathrm{tar}} の主要な情報を削除し, それを \hat{V}^{\mathrm{map}} によって張られる部分空間へ写像することと等価です. 図にしてみると

のようになります. ここでの処理を図にすると

となります.

ゲート機構

先ほど求めた P^*b^* ですが, target conceptに類似する概念には影響が及びます. これに対処するためにゲート機構を導入します. 理想的には

(1-\mathbb{1}_{\mathcal{X}^{\mathrm{tar}}}(X))X+\mathbb{1}_{\mathcal{X}^{\mathrm{tar}}}(X)(P^*X+b^*)

を求めます. ここで \mathcal{X}^{\mathrm{tar}} はtarget conceptの埋め込み分布を, \mathbb{1}_{\mathcal{X}^{\mathrm{tar}}}(X)X\sim\mathcal{X}^{\mathrm{tar}} なら1, そうでないなら0を返す関数です. ただ, 理想的な \mathbb{1}_{\mathcal{X}^{\mathrm{tar}}}(X) を直接求めることはできません.

そこで, X^{\mathrm{tar}} の主成分が持つ低ランク性を利用してゲート機構を代替手段とします. これらの主成分から直交正規基底を構築し, target conceptに対してのみ選択的に活性化することができれば真にtarget conceptのみを消去することができます. 提案手法ではゲートとして

s(X)=\sigma(\alpha(\|V(X-\beta)\|_2^2-\gamma))

を採用します. \alpha, \beta, \gamma\in\mathbb{R}, V\in\mathbb{R}^{D\times r_2} はパラメータで, V は低ランクとします (r_3\ll D). また, \sigma はシグモイド関数です.

ゲートの更新

ゲートにおける4つのパラメータを高速に決定するために, few-shotの推論のみを用います. 単純な考えとして, \beta=0 とし, V をtarget conceptのtop-r_3 主成分とすることが考えられます. しかし, これでは主成分がしばしば類似概念と強い依存関係を持っていることが原因であまり機能しません. そこで, target concept (例: George Clooney)から代理となるカテゴリ (例: celebrity)の平均埋め込みを除去します.

X_r^{\mathrm{tar}}=X^{\mathrm{tar}}-\mu^{\mathrm{sur}}

次に, X_r^{\mathrm{tar}} から \mathbb{E}[X_r^{\mathrm{tar}}(X_r^{\mathrm{tar}})^\top] のtop-r_3 の特異値に対応する主成分を計算し, 直交正規基底 \hat{V}_r^{\mathrm{tar}}\in\mathbb{R}^{D\times r_3} を得ます. そして, V^*=\hat{V}_r^{\mathrm{tar}}, \beta^*=\mu^{\mathrm{sur}} とします.

残った \alpha, \gamma を決めていきます. V^* の寄与をtarget conceptとanchor conceptの間で比較します. ある時点の画像生成における特定の層から得られた埋め込み \bold{X}=[X_1, \ldots, X_T]\in\mathbb{R}^{D\times T} に対して

p(\bold{X})=\max_{X_i}\|(V^*)^\top(X_i-\beta)\|_2^2

を求めます. ゲートは p(\bold{X}) が事前に決めたanchor conceptに対する最大値と比較可能な場合にのみ開くものとします. 閾値 \tau_1 を与えた場合, \gamma

\gamma^*=\mathbb{E}(p(\bold{X}^{\mathrm{anc}}))+\tau_1\mathrm{Var}(p(\bold{X}^{\mathrm{anc}}))

です. 最後に, 与えられたinterval \tau_2 に対して \sigma(\alpha^*\tau_2)=u となるようにします. すると \alpha^*=\dfrac{1}{\tau_2}\log\dfrac{u}{1-u} です. 実験では簡単のために 2\tau_2=\tau_1, u=0.99 を固定して性能を確認します.

最後にゲート機構の概要を示します.

実験

styleとcelebrityについて, FMN, ESD-x, ESD-u, UCE, MACE, RECEと比較します. original SDとしてStable Diffusion 1.4を用い, 画像はDDIM samplerで50 stepsかけて生成します. 評価はMACEと同じものを採用します. 分類器でのtarget conceptの正答率 \mathrm{ACC}_t と, 他の概念での正答率 \mathrm{ACC}_e を用いて

H=\dfrac{2}{(1-\mathrm{ACC}_t)^{-1}+(\mathrm{ACC}_r)^{-1}}

です. 他にもCLIP Score (CS), FIDを用います.

celebrityの消去

4概念の単一消去と, 50概念の同時消去を実験します. ハイパーパラメータとして (r_1, r_2, r_3, \eta, \tau_1)=(2, 16, 1, 1.0, 1.5) を使用します. また, 生成時は5種類のpromptを5 seedで生成し, 検出器のスコアが0.99以上でフィルタリングします.

定性結果から確認します.

既存手法では, promptへの忠実性が失われていたりします. 例えば下の例では"an official photo"とあるので比較的ちゃんとした写真が望まれますが, そのような生成例はわずかです. 一方提案手法はtarget conceptの顔だけ変わっているというような結果になっていて, 適切な生成例といえます. 論文では「既存手法ではpromptに対する画像の忠実性が大幅に低下し, 残存する有名人の顕著な変化や劣化が見られることが分かるが, 提案手法はtargetの顔のみを修正し, 画像全体への影響を最小限に抑えつつ消去を実現している.」とだけ述べられいていてもう少し具体的に書くべきではと思いました.

また, 単一概念消去時の定量評価の結果を見てみます

基本的にどの手法も消去はできるのですが, 他の概念の維持という観点ではよくない結果となっています. MACEはanchor conceptを100個用いていて高い性能ですが, 提案手法はそれを凌駕するような結果になっています. 更なる結果を見ます.

どの結果からも非常に高い性能が確認できます. UCEは消去性能は高いですが, 他の概念の維持がうまくいかないようです (MSCOCOのFIDが100近い). 一方で提案手法は他の概念への影響を軽微に抑えつつ高い消去性能を獲得しています.

Ecplicit Contentの消去

お馴染みI2Pで行う実験です. 設定も他の研究と同じなので省略します. ここでは (r_1, r_2, r_3, \eta, \tau_1)=(2, 16, 1, 5.0, 1.5) とします. また, フィルタのスコアはMACEと同様0.6です. 早速結果を見ます.

4703 promptsの内, 全部で8 promptsで検出されました. 先ほど同様に他の概念への影響は軽微です. RECEのMSCOCO FIDが提供されていない理由は不明です.

Robustness

堅牢さをみます. Ring-A-Bell (RAB)とUnlearnDiff (UD)を用います. 指標はASRです. パラメータは先ほどと同じ (r_1, r_2, r_3, \eta, \tau_1)=(2, 16, 1, 5.0, 1.5) とします. 結果を見てみると, RABでは完全防御に成功しています. 何枚生成したかはよくわからないので「seedや初期noiseによるだろ」みたいなことを思わなくもないですが, それでも既存手法より高い性能であることは疑いの余地はなさそうです. UDも高めではありますが, 比較群の中では最良のスコアとなっており, そろそろ他の攻撃手法が望まれそうになっているのかなとも思います. 内容とは関係ないのですが論文中の英文が途中で切れているのか切れていないのかわからず (ピリオドがなく次のサブセクションが始まっている), しっかりしてほしいなと思います (typoとかを含むこの手のミスはTeXで書いたものをWordに貼り付けるだけでチェック可能です).

styleの消去

MACEと同様に実験します. パラメータは (r_1, r_2, r_3, \eta, \tau_1)=(1, 1, 1, 1.0, 1.5) とします. 生成ではcelebrityとstyleを組み合わせて生成を行い, celebrityの分類をします.

実験結果からは局所的な消去の手法が画像全体に及ぶ概念であるstyleの消去にも効果的であることがわかります. これは興味深い結果でなぜ効果があるのか, 著者らの考えが欲しいところですがそういったことは書かれていません.

思ったこと

  • やはり局所的な消去を目的としたのにstyleにも効果のある結果になった考察が欲しいです. 正直なところ, 結果は見ればわかるので考察部分が一番面白いところじゃないのかな〜と思ってます.
  • RECEの結果が所々ブランクなのはなぜでしょう.
  • そろそろI2Pも防げて当たり前の世界に入ってきそうです. 新たなデータセットが望まれている気がします.
  • celebrityのみの実験ですがobjectはどうでしょうか. 例えばcelebrityは「人」のドメインでしかないので他のドメインで効果があるかは気になるところです.

参考文献

  • Byung Hyun Lee, Sungjin Lim, and Se Young Chun. Localized concept erasure for text-to-image diffusion models using training-free gated low-rank adaptation, 2025.

Discussion