🚀

Stable Diffusionからの概念消去⑮:Adaptive Guided Erasure (論文)

2025/02/28に公開

Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them (ICLR2025)

引き続きICLR2025採択論文を見ていきます.

書籍情報

Anh Tuan Bui, Thuy-Trang Vu, Long Tung Vuong, Trung Le, Paul Montague, Tamas Abraham, Junae Kim, and Dinh Phung. Fantastic targets for concept erasure in diffusion models and where to find them. In The Thirteenth International Conference on Learning Representations, 2025.

関連リンク

TL; DR

著者らがまとめてくれているこの研究の貢献をここに記載します.

  • concept spaceの構造や幾何学的特性に関する新しい評価を行い, ある概念を消去した際の他の概念への影響の局所性などの知見を示す.
  • target conceptの選択が, unerased conceptの保持に与える影響の分析によって, 2つの重要な特性 (target conceptに密接に関連するが同義語ではないこと)を特定する.
  • 各消去クエリに対して2つの重要な特性を満たす最適なtarget conceptを適応的に選択する手法を提案する
  • 大規模な実験により能力を検証する

大規模な実験と書いていますが, 実験結果を見たところICLRなら普通くらいの量に見えます (LocoGenとかの方が実験してそうな雰囲気がある).

概念消去の影響分析

さて, 概念消去の評価をするときに考える項目は大きく分けて2つです.

  1. どのように概念が生成画像に現れたかどうかを確認するか
  2. どのように無限の可能性を秘めたモデルの出力空間をカバーするのに十分で多様な評価を保証するか

ここではNetFiveという新しい評価のデータセットを用意します. これはImageNetの25の概念で構成され学習済みの分類器によって概念が表れているかを確認します. 1つの概念につき500枚の画像を生成することで多様性を確保しているようです. より具体的には, 5つの概念のsubsetがあり, 各部分集合には1つのanchor concept(e.g. English Springer)と4つの関連概念が含まれます. 全て列挙すると

  • Dog: English springer, Clumber spaniel, English setter, Blenheim spaniel, Border collie.
  • Vehicle: Garbage truck, Moving van, Fire engine, Ambulance, School bus.
  • Instrument: French horn, Basson, Trombone, Oboe, Saxophone.
  • Building: Church, Monastery, Bell cote, Dome, Library.
  • Equipment: Cassette Player, Polaroid camera, Loudspeaker, Typewriter keyboard, Projector.

です.

前述の2項目をどうやって計測するかですが, ここでは2つのスコアを用いて計測します. 画像は500枚生成し, ImageNetで事前学習した分類器を使います. 以降では G_{\theta} を生成モデルとします.

  1. Detection Score (DS-1/DS-5): 概念 c がtop-1/5に分類された生成画像の枚数です.
  2. Confident Score (CS-1/CS-5): 概念 c がtop-1/5に割り当てられたらその確率, それ以外の場合は0になります. これは概念 c が登場するならどの程度綺麗に生成されるのかを表します. スコアが高ければ概念 c が生成画像により適切に表れていることを示します.

G_0(c_j), G_{c_e}(c_j) をそれぞれ, originalモデルと概念 c_e を消去したモデルに対して同じ概念 c_j を入力した際の生成能力を表すとします. 2つのモデルの能力差は \Delta(c_e, c_j)=G_0(c_j)-G_{c_e}(c_j) で計算します.

Genertic Concept

Genertic Conceptとは, ""のような一般的な概念で表されるようなものです. 下図の上部に示すのはEnglish Springerを消した際に, NetFiveの全ての概念の生成能力にどのような影響が及ぶかを可視化したものです. 各列は下図下部の概念にそれぞれ対応します. 青色は G_{c_e}(c_j) を表し, 赤色は \Delta(c_e, c_j)=G_0(c_j)-G_{c_e}(c_j) を表します. すなわち元の生成能力を100%としたときにどれほど生成能力が失われたかを青の高さで示しています. 赤の領域が大きいほど生成能力が失われたことを指し示します. また, 緑色の線は元のモデルが生成した画像に対する分類器のconfident score, オレンジの線は消去後のモデルが生成した画像に対する分類器のconfident scoreを表します.

この棒グラフ群からは, G_{ce}(\text{``English Springer''})=0 なので, English Springerの消去に成功していることがわかります. 一方で, English Springer以外にも赤い領域が目立つ概念がいくつかあったりconfident scoreが下がっていることから, 他の概念も影響を受けていることが示唆されます. 特に, English Springerに近しい概念であるDogのカテゴリに属する概念は影響を受けていることがわかります. ところが, DogではないBell CoteとOboeも強く影響を受けており, 非直感的です. 著者らはこれについて, 「元々のモデルの生成能力がそこまで高くない」としています. 個人的には説明になっていないと思いますが...

消去の成功について

厳密に成功しているかはこのスコアからは言えませんが (attack手法を適用していないため), この指標の上では成功していると言えます.

続いて下の行列をみます. ここではある概念を消去した際に, 他の全ての概念に与える影響を示しています. 各行は1つの概念を消した場合に対応しており, 各セルの値は \Delta(c_e, c_j)=G_0(c_j)-G_{c_e}(c_j) で, これが濃い赤になればその概念の生成能力が低いことになります. この行列は概念間の影響関係を示すconcept graphとして解釈でき, ある概念の消去が他の概念に与える影響の程度を視覚的に表現していると言えます.

この図からは以下のことが言えます.

  • 局所性 (Locality): 概念グラフはスパースかつ局所的で, ある概念を消去してもその影響はすべての概念に広がるわけではなく, 消去された概念 c_e と意味的に関連する局所的な概念にのみ影響が及んでいます.
  • 非対称性 (Asymmetry): 概念グラフは非対称的であり, 概念 c_e を消去した際の概念 c_j への影響と, 概念 c_j を消去した際の概念 c_e への影響は同じではありません.
  • 異常性 (Abnormality): "Bell Cote"や"Oboe"のような生成能力がもともと低い概念はどの概念を消去しても影響を受けやすいです.

また, 図の最後の4行に示されている"Taylor Swift", "Van Gogh", "gun", "nudity"などの排他的な概念を消去した場合でもNetFiveの他の概念への影響は限定的で, 異常な2つの概念のみが影響を受けています. このことはconcept graphに関する観察結果を補強するものです.

ちなみに, 論文のAppendixにはStable Diffusion 2.1で行った結果も示されていて, 元々の生成能力が低い概念が"Bell Cote"と"Projector"になったこと以外は同じ結果でした.

Specific Concept

消去する概念 c_e に対して異なるtarget concept c_t を選択する戦略を比較します. これによってtarget conceptの選択が他の概念の保持にどのような影響を与えるかを調べます. 各サブセットにおいて同じ概念を消去しますが, 7種類のtarget conceptを用います. この序列は結果の観察で使います.

  1. c_e の同義語 (synonym)
  2. c_e に意味的に関連するが同義語ではない概念その1
  3. c_e に意味的に関連するが同義語ではない概念その2
  4. c_e を含む上位レベルの一般的な概念. 一般にはsuper-category (例えばEnglish Springerに対するDog)
  5. c_e に意味的に無関係な概念その1
  6. c_e に意味的に無関係な概念その2
  7. 空の概念 (empty concept)

類義語かどうかをどうやって見つけるかですが, Appendix C.3に記述されています. 簡単に概要を述べると, ChatGPTやGoogle検索などを利用して選び, ResNet-50でチェックするといった感じです. 早速結果を確認します. 見方は先ほどと同じです.

この結果からtarget conceptの選択が概念の保持性能に大きく影響することが分かります. 重要な観察結果は以下の通りです.

  • Locality: target conceptの選択に関わらず消去の影響は局所的で, 全体には広がっていません.
  • Abnormal: "Bell Cote"や"Oboe"といった概念はtarget conceptの選択に関わらず, いずれの概念の消去にも敏感に反応しています.
  • 同義語: anchor conceptの同義語をtarget conceptとした場合, 影響は最小限に抑えられる (全ての c_j に対する最小の \Delta(c_e, c_j))が, c_e の消去効果も極めて低いです.
  • 意味的に無関係な概念: 無関係な概念へのマッピングは空の概念("")をtarget conceptとする場合と類似の結果を示し, 各サブセットの5~7番目の行の \Delta(c_e, c_j) の傾向が一致しています.
  • 一般概念: 一般的な概念をtarget conceptに選択するのは直感的には合理的だが必ずしも良い結果にはなりません. 例えば"English Springer"→"Dog"や"French Horn"→"Musical Instrument Horn"では関連する概念の生成能力が低下しています. また, 消去性能も若干低下しており, "Garbage Truck"→"Truck", "French Horn"→"Musical Instrument Horn", "Cassette Player"→"Audio Device"の場合, DS-5スコアはそれぞれ 83%, 91%, 78% です. これらの結果は一般概念をtarget conceptとする戦略が最適ではないことを示唆しています.
  • クラス内概念: 最高の概念保持性能が一貫して得られたのはtarget conceptとして c_e に密接に関連するが同義語ではない概念を選択した場合です. 例えば"English Springer"→"Clumber Spaniel", "Garbage Truck"→"Moving Van"や"School Bus" ("Dog"および"Vehicle"サブセット)では, 関連概念の影響を最小限に抑えながら効果的に消去を実現しています.

提案手法: Adaptive Guided Erasure

これまでの観察結果を踏まえて, 各クエリ概念ごとにtarget conceptを適応的に選択する手法を提案しています. ここではtarget conceptが満たすべき特性を2つ挙げています.

  • 同義語ではないこと: クエリ概念と視覚的に類似した同義語(例: "nudity"→"naked"または"nude", "Garbage Truck"→"Waste Collection Vehicle")は選択しない. これにより, クエリ概念の消去性能が確保されます.
  • 密接に関連するが同一でないこと: クエリ概念に密接に関連するが, 完全には一致しない概念(例: "English Springer"→"Clumber Spaniel", "Garbage Truck"→"Moving Van")を選択する. これにより, 他の概念の生成能力を保持しやすくなります. 概念グラフの局所性の性質に基づいて, モデル出力の変化を用いてこれらの局所的に関連する概念を特定できると仮定をおきます.

これは例が挙げられているように, 手動でやることは容易です. しかし, 大規模な消去データセット E に対しては大変すぎるので自動でやれると嬉しいです. 提案手法は各クエリ概念に対して最適なtarget conceptを自動かつ適応的に選択する戦略を採用します. 具体的には以下の最適化問題を解くことが目標です.

\displaystyle\min_{\theta'}\mathbb{E}_{c_e\in\bold{E}}\max_{c_t\in\mathcal{C}}\left[\underbrace{\|\varepsilon_{\theta'}(\tau(c_e))-\varepsilon_{\theta}(\tau(c_t))\|_2^2}_{L_1}+\lambda\underbrace{\|\varepsilon_{\theta'}(\tau(c_t))-\varepsilon_{\theta}(\tau(c_t))\|_2^2}_{L_2}\right]

ここで, \mathcal{C} はtarget concept c_t の探索空間です. この最適化問題を詳しくみます. L_1\theta' に関して最適化することで, 概念 c_e が消去されます. 簡単に言えば c_ec_t です. 一方で, L_2\theta' に関して最適化することで, 同じ入力概念 c_t に対しても同じ出力となるようにしています. これによって他の概念に対する生成能力を維持しています. まとめると, \theta' を変化させることで概念消去を実現し, かつモデルの機能性も維持しています.

今は \min の方に目を向けましたが, 次は \max の方に目を向けます. L_1c_t に関して最大化することで, 最適なtarget concept c_t^* がクエリ概念 c_e の同義語にならないようにします. これは c_e の消去効果を確保するためにも必要です. また, L_2c_t に関して最大化することで, パラメータが \theta\rightarrow\theta' となった際に最も影響を受ける概念を見つけます. これによって c_e に最も関連する概念を特定できます.

探索空間 \mathcal{C} は離散的で有限なので, 単純な方法として全探索すればOKです. しかし, 当然ですが \mathcal{C} が大きくなっていくと時間がかかり, 実用的ではなくなります. それに加えて概念が複雑なケースも考えられます. その場合, \mathcal{C} の単一の概念として解釈できないことも考えられます. そのため, target conceptを \mathcal{C} が複数組み合わさったものとして定式化します. すなわち \bold{G} をGumbel-softmaxとしたときに, \tau(c_t)=\bold{G}(\pi)\odot T_\mathcal{C} です. ここで \pi\in\mathcal{R}^{|\mathcal{C}|} は学習可能な変数, T_{\mathcal{C}} は概念空間 \mathcal{C} 全体のtext embeddingの行列です. target conceptが \mathcal{C} 内のすべての概念の混合ではなく, いくつかの概念の組み合わせになるように, 温度は1未満とします. すると, 先ほどの最適化問題は次のように書き換えられます.

\min_{\theta'}\mathbb{E}_{c_e\in\bold{E}}\max_{\pi}\left[\underbrace{\|\varepsilon_{\theta'}(\tau(c_e))-\varepsilon_{\theta}(\bold{G}(\pi)\odot T_{\mathcal{C}})\|_2^2}_{L_1}+\lambda\underbrace{\|\varepsilon_{\theta'}(\bold{G}(\pi)\odot T_{\mathcal{C}})-\varepsilon_{\theta}(\bold{G}(\pi)\odot T_{\mathcal{C}})\|_2^2}_{L_2}\right]

実験

object, style, NSFWについて消去を行い, 性能を確認します. 比較手法はAP, ESD, UCE, CA, MACEです. Stable Diffusion 1.4を用いてbatch size 1で1000 step更新します. Adamを学習率 10^{-5} で使用します. \lambda=1.0, \gamma=0.1 を使用します. \gamma は温度です. \pi の更新に用いる学習率は 0.001, \pi\theta は1:1の更新回数を維持します.

Objectの消去

概念消去では毎度お馴染みとなっているImagenetteを使います. 4つの消去タスクを実施し, 各タスクで5クラス消して5クラスは残します. 1クラスにつき500枚生成します. 評価指標はESR-k, PSR-kとMSCOCO-30kのFID, CLIP Scoreによって行います. 早速結果を確認します.

ESDが少し低いかなという感じはありますが, 全体的にESRが高く, 概念消去がうまくいっていることがわかります. UCEが100%のESRで, 消去性能における提案手法の優位性は全くないです. 一方で, PSRになると話は変わってきます. 概ね全てのベースラインで悪い結果となっています. 提案手法はベースラインの中で最高性能であるAPに対して20ポイントほど差をつけて優位な結果となっており, 他の概念の維持という観点においては提案手法の優位性が認められるものとなっています. FIDやCLIP Scoreもかなりいい結果を出しています. 論文ではFIDとCLIP Scoreの両方がbestと書いてありますが表からはそのような結果は認められません (査読でも指摘されていないので謎です).

NSFWの消去

続いてNSFWの結果をみます. 基本的にはESDの論文での設定に従っており, cross-attention以外の部分を更新します. 生成時はI2P promptsを用いて全部で4703枚の画像を生成します. 評価もいつも通りNudeNetを用いたもので, NER-kを評価指標として使用します. 結果を確認します.

FIDは先ほどとは異なり他の手法を大きく引き離す形で最良のスコアになっています. NERもkが0.3の場合を除き, 他の手法を超える結果となっています. 0.3のときは2番目の結果ですが, これについての考察はありませんでした.

次に, 生成された画像において登場した身体の部位の統計を示します. Original SDはFemale Breastについて多く検出されており, 4703枚のうち320枚以上が含まれています. ベースラインと提案手法は多くの場合でその枚数の削減に成功しています. feetに関してはベースラインを下回る結果でした. 著者らはfor feet which is a less sensitive body part.としていますが一般的に合意された話ではない気がします.

styleの消去

最後にstyleの性能を確認します. Kelly Mckernan, Thomas Kinkade, Tyler Edlin, Kilian Eng, Ajin Demi Humanの5概念を選んで消します. これもESDの論文での実験設定と同じです. 各タスクでは1つのstyleを消去します. これまでは検出器ベースのものを評価に使っていましたが, 信頼性ある検出器が存在しないため, ここではCLIP Scoreを用います. 評価の正確性を上げるために, 長いpromptを用いて, 各promptで5つのseed値を使用し, 1styleあたり200枚の画像を生成します. 生成画像の歪みの測定としてLPIPSを使います. あくまでLPIPSは補助的な指標として使うようです. 結果を確認します.

CLIP Score (赤のマーク)は提案手法, AP, UCEはパレートフロンティア上にあり, 消去性能と他概念の維持の間にトレードオフがありそうな結果です (これならMACEもそうな気がしますが...). APは提案手法より優れた消去性能を示しています (左にあれば消去性能が高いです). 一方で, 他の概念の維持に関してはAPより提案手法が優れています (上にあれば優れています). LPIPS (青のマーク)については提案手法が全体的に優れています.

ここからわかるように, styleはSoTAではありません. 著者らは他の概念の維持に主張を移していますが, 概念消去が実現した上での話なのであまり手法の有効性には働かないのではないかなと思います.

思ったこと

  • styleの消去でしょうか. 分類器がないなら作ればいいだけなので少し無理のある主張に見えます.
  • NSFWについては, 急にMACEがベースラインから外れた理由がよくわかりませんでした. MACEの論文ではNSFW消去もやっているので設計されていないわけではないです. MACEの論文を見るとNER-0.6が0.03, FIDは13.42なのであえて外したのかなと邪推してしまします. ちなみに査読ではスルーされていました.
  • 結構わかりやすい論文だなと思いました. まだシンプルな定式化でも戦えそうな雰囲気があります.
  • Appendixに定性結果があるのですが, 解像度が低くて何と書いてあるのかよくわからないです. なぜこんな感じなのか...

参考文献

  • Anh Tuan Bui, Thuy-Trang Vu, Long Tung Vuong, Trung Le, Paul Montague, Tamas Abraham, Junae Kim, and Dinh Phung. Fantastic targets for concept erasure in diffusion models and where to find them. In The Thirteenth International Conference on Learning Representations, 2025.
  • Shilin Lu, Zilan Wang, Leyang Li, Yanzhu Liu, and Adams Wai-Kin Kong. Mace: Mass concept erasure in diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6430–6440, June 2024.

Discussion