🐡

Stable Diffusionからの概念消去㉔:FADE(論文)

に公開

Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models (CVPR2025)

CVPR2025は全部見たかなと思っていたのですが, 抜けがあったのを見つけたので今回はその論文について扱います.

書籍情報

図表は以下の論文からの引用です.

Kartik Thakral, Tamar Glaser, Tal Hassner, Mayank Vatsa, and Richa Singh. Fine-grained erasure in text-to-image diffusion-based foundation models. In Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR), pages 9121–9130, June 2025.

関連リンク

公式実装はないです.

はじめに

既存の概念消去は局所性に優れていますが, 細かい制御はまだまだだそうです. 以下の図が明快ですが, 既存手法ではgolf ballを消した際に他のボールも消えてしまいます. これをどうにかしたいのが提案手法で, 確かに下図のoursを見ると他のボールは保たれていそうです.

問題設定

target concept \mathcal{c}_{\mathrm{tar}}\in\mathcal{C} を忘れさせたいとします. このとき, 当たり前ですが意味的に近い概念なども保持されて欲しいです. \mathcal{D}=\{d_1, d_2, \ldots, d_N\} を各データポイント d_i を集めた集合で, データセットとします. ここで, d_i\mathcal{C}_{d_i}\subset\mathcal{C} に結びついています. \mathcal{C} はモデルが学習した全ての概念集合です. 学習済みモデルを \theta とし, 入力 x\in\mathcal{X} を画像 y\in\mathcal{Y} に射影するとします. 概念消去ではモデル \theta を, unlearning functinon \mathcal{U} を用いて更新し, \theta^{\mathcal{U}} にします. この状況では任意の入力プロンプト x に対して y_{c_{\mathrm{tar}}} が現れる確率は0に近づきます. 数式的には P_{\theta^{\mathcal{U}}}(y_{c_{\mathrm{tar}}}\mid x)\to0 です. これと同時に, 他の概念に関しては維持する必要があります. 他の概念と言っても, 隣接概念と無関係な概念の2つがあります. \mathcal{A}(c_{\mathrm{tar}})\subset\mathcal{C} を隣接概念の集合とします. これは c_{\mathrm{tar}} に近い概念が含まれます. すると, 以下の2つの条件を満たす必要があります.

  1. Retention of Adjacent Concepts

    P_{\theta^{\mathcal{U}}}(y_{c}\mid x)\approx P_{\theta}(y_{c}\mid x),\quad \forall c\in \mathcal{A}(c_{\mathrm{tar}}),\quad \forall x\in\mathcal{X}
  2. Preservation of Unrelated Concepts

    P_{\theta^{\mathcal{U}}}(y_{c}\mid x)\approx P_{\theta}(y_{c}\mid x),\quad \forall c\in\mathcal{C}\backslash c_{\mathrm{tar}}\cup\mathcal{A}(c_{\mathrm{tar}}),\quad \forall x\in\mathcal{X}

提案手法:FADE

最初に, 今後のためにモデルの持つ知識を

  1. Unlearning Set \mathcal{D}_u: c_{\mathrm{tar}} から生成された画像で構成される
  2. Adjacency Set \mathcal{D}_a: c_{\mathrm{tar}} に近い画像で構成される. 後述するConcept Neighborhoodで構成します.
  3. Retain Set \mathcal{D}_r: 様々な画像で構成される.

に分けます. これらは \mathcal{D}_u\cup\mathcal{D}_a\cup\mathcal{D}_r\subset\mathcal{D} かつ \mathcal{D}_u\cap\mathcal{D}_a\cap\mathcal{D}_r=\emptyset を満たすようにします.

提案手法のフレームワークを示します.

Concept Neighborhood

unlearningを評価する際にはAdjacency Set \mathcal{D}_a が必要です. \mathcal{D}_a=\{c\in\mathcal{C} | \mathrm{sim}(c, c_{\mathrm{tar}})>\tau\} となるように選ぶことが理想です. しかし, このように \mathcal{D}_a を構築することはWordNetのようなものがない限り難しいです. これを簡単に構築するためにこの論文ではConcept Neighborhoodと呼ばれる近似的な \mathcal{A}(c_{\mathrm{tar}}) を提案しています. ここでは意味的な類似度を用いて c_{\mathrm{tar}} に類似する top-K クラスを特定し, \mathcal{D}_a の代わりとして用います.

\mathcal{A}(c_{\mathrm{tar}}) は以下のように構築します.

  1. c_{\mathrm{tar}} を含むすべての概念 c\in\mathcal{C} に対して 学習済みモデルを用いて画像の集合 \mathcal{I}_c=\{x_1^c,\ldots,x_m^c\} を生成します. m は各概念ごとの画像数です.

  2. 学習済みの画像エンコーダー \phi: X\to\mathbb{R}^d を用いて各画像の埋め込み \bold{f}_i^c=\phi(x_i^c) を計算します.

  3. 各概念 c に対して平均特徴ベクトル \overline{\bold{f}}^c=\dfrac{1}{N}\sum_{i=1}^N\bold{f}_i^c を計算します.

  4. c_{\mathrm{tar}} と他の全ての概念 c\in\mathcal{C}\backslash c_{\mathrm{tar}} との意味的類似度を平均特徴ベクトル間のコサイン類似度を計算することで定量化します.

    L(c_{\mathrm{tar}}, c)=\dfrac{\langle\overline{\bold{f}}^{c_{\mathrm{tar}}}, \overline{\bold{f}}^c\rangle}{|\overline{\bold{f}}^{c_{\mathrm{tar}}}||\overline{\bold{f}}^c|}

    ここで, \langle\cdot,\cdot\rangle は内積です.

  5. 類似度をソートし, 上位 K 個の概念を選択し, \mathcal{A}(c_{\mathrm{tar}})=\{c^{(1)}, \ldots, c^{(K)}\} として構成します. 大前提ですが, L(c_{\mathrm{tar}}, c^{(i)})\geq L(c_{\mathrm{tar}}, c^{(i+1)}) かつ c^{(i)}\in\mathcal{C}\backslash c_{\mathrm{tar}} です.

この手法は, 潜在空間におけるk-NNによる分類と, 特定の条件下における最適なナイーブベイズ分類器との間に存在する理論的な関係によって裏付けされます.

定理1

(\mathbb{R}^d におけるk-NNによるナイーブベイズの近似)
高さ h, 幅 w, チャネル c を持つ画像を x\in\mathbb{R}^{h\times w\times c} とし, \phi:\mathbb{R}^{h\times w\times c}\to\mathbb{R}^d を画像 x を潜在空間 \mathbb{R}^d に射影する写像とする. ここで d\ll hwc である. また, z=\phi(x) はクラスラベル c\in\mathcal{C} に条件付きで独立と仮定する. このとき, \mathbb{R}^d 上で動作するk-NN分類器は以下の極限においてナイーブベイズ分類器に収束する.

  • サンプル数 N\to\infty
  • 近傍数 k\to\infty
  • 比率 \dfrac{k}{N}\to0

より具体的には,

\lim_{N\to\infty} P\left(C_{\text{k-NN}}(\phi(\bold{x}))=C_{\text{NB}}(\bold{x})\right)=1

証明は一応Appendixにありますが, 1.5ページくらいあるのでここでは省略します.

直感的には, 「潜在空間におけるk-NN分類器が最適な分類器を近似する」ことを示しており, 「k-NNを用いた特徴類似度によって意味的に類似した概念を特定する手法の妥当性」を支持している, と著者らは主張しています. これにより, Concept Neighborhoodの手法は潜在空間に内在する意味的構造を近似するもので, \mathcal{A}(c_{\mathrm{tar}}) を効果的に構築することが可能となります.

Concept FADE-ing

提案手法は, \theta_{M}^{\mathcal{U}} でパラメータ化されるメッシュ M によってtarget concept c_{\mathrm{tar}} を選択的にunlearningします. それに加えて, 隣接概念に対するモデルの意味的生合成を維持します. これを達成するには以下の3つのlossを用いる必要があります.

  1. Erasing Loss
  2. Guidance Loss
  3. Adjacency Loss

順番に見ていきます.

Erasing Loss

名前の通り, target conceptを消すための損失関数です. 既存研究を思い出しても同じ目的に対して様々なlossが使われている印象ですが, ここではtarget conceptの表現を歪めて元の表現から乖離させることと, unlearning後のモデルの \mathcal{A}(c_{\mathrm{tar}}) に対する変化が最小限になる正則化項の役割も同時に果たします. 数式で書くと,

\mathcal{L}_{\mathrm{er}}=\max\left(0, \dfrac{1}{|\mathcal{A}(c_{\mathrm{tar}})|}\sum_{x\in \mathcal{A}(c_{\mathrm{tar}})}\left|\varepsilon_{\theta_{M}^{\mathcal{U}}}^{c_{\mathrm{tar}}}-\varepsilon_{\theta}^x\right|_2^2-\dfrac{1}{|\mathcal{D}_u|}\sum_{x\in \mathcal{D}_u}\left|\varepsilon_{\theta_{M}^{\mathcal{U}}}^{c_{\mathrm{tar}}}-\varepsilon_{\theta}^x\right|_2^2+\delta\right)

です. \varepsilon_{\theta}^{c_{\mathrm{tar}}} はtarget conceptに対して予測されたノイズ, \varepsilon_{\theta}^x\mathcal{A}(c_{\mathrm{tar}}) または \mathcal{D}_ux に対して予測されたノイズです. \delta はmargin hyperparameterです.

Guidance Loss

target conceptのノイズ予測をnull conceptへ向けるように導くもので, 特定のタスクに依存した代理概念を必要とせずにunlearningを可能にする, と著者らは述べています. 数式で書くと

\mathcal{L}_{\mathrm{guid}}=\left|\varepsilon_{\theta_{M}^{\mathcal{U}}}^{c_{\mathrm{tar}}}-\varepsilon_{\theta}^{c_{\mathrm{null}}}\right|_2^2

です.

Adjacency Loss

これもまた, 正則化項として機能します. unlearning後のモデルにおいて, \mathcal{A}(c_{\mathrm{tar}}) に含まれる概念の埋め込みを保持します.

\mathcal{L}_{\mathrm{adj}}=\dfrac{1}{|\mathcal{A}(c_{\mathrm{tar}})|}\sum_{x\in \mathcal{A}(c_{\mathrm{tar}})}\left|\varepsilon_{\theta_{M}^{\mathcal{U}}}^{x}-\varepsilon_{\theta}^x\right|_2^2

これらのlossにハイパーパラメータで定義される重みづけをして全体のlossとします.

\mathcal{L}_{\mathrm{FADE}}=\lambda_{\mathrm{er}}\mathcal{L}_{\mathrm{er}}+\lambda_{\mathrm{adj}}\mathcal{L}_{\mathrm{adj}}+\lambda_{\mathrm{grid}}\mathcal{L}_{\mathrm{grid}}

実験

いつものように, 実験設定を確認してから結果を見ます. この論文では2つのプロトコル (観点)で実験を行います.

  1. Fine-Grained Unlearning (FG-Un): \mathcal{D}_a を維持したまま c_{\mathrm{tar}} が消えてるかを見ます.
  2. Coarse-Grained Unlearning (CG-Un): \mathcal{D}_r でのモデルの汎化性能を見ます.

どちらもベースラインはESD, CA, FMN, SPM, Recelerです.

Stanford Dogs, Oxford Flowers, CUB, ImageNet-1kを使って分類性能で確認します.

評価にはErasing Accuracy A_{\mathrm{er}} とAdjacenct Accuracy A_{\mathrm{adj}} を組み合わせたErasing Retention Balance (ERB) Scoreを使います.

\mathrm{ERB\ Score}=\dfrac{2\cdot A_{\mathrm{er}}\cdot\hat{A}_{\mathrm{adj}}}{A_{\mathrm{er}}+\hat{A}_{\mathrm{adj}}+\eta}

ここで, \hat{A}_{\mathrm{adj}}=\dfrac{1}{|C|}\sum_{c\in C}A_{\mathrm{ajd}} で, \eta は0で割ることを防ぐ定数です.

では, 結果を見てみます.

この結果からわかるように, 既存手法は高い消去性能を示していますが隣接概念の保持ができていません. 一方提案手法は既存手法にほんの少し劣る程度の消去性能で隣接概念の保持がかなり高い精度でできています. この2つの観点から考えると, 非常に提案手法は優れていると言えます.

続いて定性的比較を行います.

ここでは各データセットに対してtarget conceptとその隣接概念に対する生成結果を示しています. 例えばESD, FMN, Recelerは隣接概念の生成結果が破綻していることがわかります. CAとSPMは一見良さそうに見えますが, 犬種などの細かい情報が消えてしまっています. 例えば「犬」や「鳥」という区分は保持できているがそれ以上の込み入った情報については失われている, ということです. それに対して提案手法は隣接概念を特定属性における細かい部分まで保持していると著者らは主張しています.

続いて, ImageNet-1kの結果を見ます. 論文では「ボール、トラック、犬、魚といった特定の対象クラスに対して実施された」と述べられていますが実態はimagenetteです.

概ね先ほどと同じ結果が出ており, 消す概念が変化しても性能の高さがわかります.

次に, これまでの実験とはあまり関係ないですが, ImageNet-1kのfine-grainedクラス分類とfine-grainedデータセットを使って意味的類似度の増加に伴う堅牢性を確認します. 以下の図では, CLIPベースの構造的類似度 (円形軸)と平均隣接精度(放射軸)との関係が示されています.

FMNとESDは類似度78%で性能が低下し始め, Recelerは80%で完全に機能しなくなることがわかります. SPMはそれなりの堅牢さですが, 90%を超える類似度では性能が著しく低下しています. これに対して提案手法であるFADEは高い隣接精度を維持し, 類似度が高い場合でも頑健性を発揮しています. 余談ですが, 類似度100と0が同じ場所にプロットされており, 円形のグラフを使うのは良くないように思えます.

思ったこと

  • やけに参照されていない図がmainの部分に多く, 何が言いたいんだという感じがします.
  • この研究はよりピンポイントでの消去を目指しています. 例えばgolf ballを消したかったらtennis ballには影響を与えてはいけません. これは実用的な研究でいいなと思う一方で, ピンポイントな消去は攻撃に弱そうなイメージがあります. なので, 攻撃手法に対する堅牢さを主張してほしいです. もしかしたらあまり強くないので実験結果は載ってないとかはあるかもしれませんが...
  • 複数概念への言及がないのも最近の概念消去の論文としてはあまりよくないかなと思います. ピンポイントな消去ができるならgolf ballとtennis ballは決してsoccer ballなどは残すみたいな運用がしたい場面への適用を考えたいです.
  • ベースラインが弱いように思えます. 採択年が2024なだけで全ての研究が2023にarXivで発表されているもので, 最新の動向を反映したとは思えないです.

参考文献

  • Kartik Thakral, Tamar Glaser, Tal Hassner, Mayank Vatsa, and Richa Singh. Fine-grained erasure in text-to-image diffusion-based foundation models. In Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR), pages 9121–9130, June 2025.

Discussion