Stable Diffusionからの概念消去㉔:FADE(論文)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models (CVPR2025)
CVPR2025は全部見たかなと思っていたのですが, 抜けがあったのを見つけたので今回はその論文について扱います.
書籍情報
図表は以下の論文からの引用です.
Kartik Thakral, Tamar Glaser, Tal Hassner, Mayank Vatsa, and Richa Singh. Fine-grained erasure in text-to-image diffusion-based foundation models. In Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR), pages 9121–9130, June 2025.
関連リンク
公式実装はないです.
はじめに
既存の概念消去は局所性に優れていますが, 細かい制御はまだまだだそうです. 以下の図が明快ですが, 既存手法ではgolf ballを消した際に他のボールも消えてしまいます. これをどうにかしたいのが提案手法で, 確かに下図のoursを見ると他のボールは保たれていそうです.

問題設定
target concept
-
Retention of Adjacent Concepts
P_{\theta^{\mathcal{U}}}(y_{c}\mid x)\approx P_{\theta}(y_{c}\mid x),\quad \forall c\in \mathcal{A}(c_{\mathrm{tar}}),\quad \forall x\in\mathcal{X} -
Preservation of Unrelated Concepts
P_{\theta^{\mathcal{U}}}(y_{c}\mid x)\approx P_{\theta}(y_{c}\mid x),\quad \forall c\in\mathcal{C}\backslash c_{\mathrm{tar}}\cup\mathcal{A}(c_{\mathrm{tar}}),\quad \forall x\in\mathcal{X}
提案手法:FADE
最初に, 今後のためにモデルの持つ知識を
- Unlearning Set
:\mathcal{D}_u から生成された画像で構成されるc_{\mathrm{tar}} - Adjacency Set
:\mathcal{D}_a に近い画像で構成される. 後述するConcept Neighborhoodで構成します.c_{\mathrm{tar}} - Retain Set
: 様々な画像で構成される.\mathcal{D}_r
に分けます. これらは
提案手法のフレームワークを示します.

Concept Neighborhood
unlearningを評価する際にはAdjacency Set
-
を含むすべての概念c_{\mathrm{tar}} に対して 学習済みモデルを用いて画像の集合c\in\mathcal{C} を生成します.\mathcal{I}_c=\{x_1^c,\ldots,x_m^c\} は各概念ごとの画像数です.m -
学習済みの画像エンコーダー
を用いて各画像の埋め込み\phi: X\to\mathbb{R}^d を計算します.\bold{f}_i^c=\phi(x_i^c) -
各概念
に対して平均特徴ベクトルc を計算します.\overline{\bold{f}}^c=\dfrac{1}{N}\sum_{i=1}^N\bold{f}_i^c -
と他の全ての概念c_{\mathrm{tar}} との意味的類似度を平均特徴ベクトル間のコサイン類似度を計算することで定量化します.c\in\mathcal{C}\backslash c_{\mathrm{tar}} L(c_{\mathrm{tar}}, c)=\dfrac{\langle\overline{\bold{f}}^{c_{\mathrm{tar}}}, \overline{\bold{f}}^c\rangle}{|\overline{\bold{f}}^{c_{\mathrm{tar}}}||\overline{\bold{f}}^c|} ここで,
は内積です.\langle\cdot,\cdot\rangle -
類似度をソートし, 上位
個の概念を選択し,K として構成します. 大前提ですが,\mathcal{A}(c_{\mathrm{tar}})=\{c^{(1)}, \ldots, c^{(K)}\} かつL(c_{\mathrm{tar}}, c^{(i)})\geq L(c_{\mathrm{tar}}, c^{(i+1)}) です.c^{(i)}\in\mathcal{C}\backslash c_{\mathrm{tar}}
この手法は, 潜在空間におけるk-NNによる分類と, 特定の条件下における最適なナイーブベイズ分類器との間に存在する理論的な関係によって裏付けされます.
定理1
(
高さ
- サンプル数
N\to\infty - 近傍数
k\to\infty - 比率
\dfrac{k}{N}\to0
より具体的には,
証明は一応Appendixにありますが, 1.5ページくらいあるのでここでは省略します.
直感的には, 「潜在空間におけるk-NN分類器が最適な分類器を近似する」ことを示しており, 「k-NNを用いた特徴類似度によって意味的に類似した概念を特定する手法の妥当性」を支持している, と著者らは主張しています. これにより, Concept Neighborhoodの手法は潜在空間に内在する意味的構造を近似するもので,
Concept FADE-ing
提案手法は,
- Erasing Loss
- Guidance Loss
- Adjacency Loss
順番に見ていきます.
Erasing Loss
名前の通り, target conceptを消すための損失関数です. 既存研究を思い出しても同じ目的に対して様々なlossが使われている印象ですが, ここではtarget conceptの表現を歪めて元の表現から乖離させることと, unlearning後のモデルの
です.
Guidance Loss
target conceptのノイズ予測をnull conceptへ向けるように導くもので, 特定のタスクに依存した代理概念を必要とせずにunlearningを可能にする, と著者らは述べています. 数式で書くと
です.
Adjacency Loss
これもまた, 正則化項として機能します. unlearning後のモデルにおいて,
これらのlossにハイパーパラメータで定義される重みづけをして全体のlossとします.
実験
いつものように, 実験設定を確認してから結果を見ます. この論文では2つのプロトコル (観点)で実験を行います.
- Fine-Grained Unlearning (FG-Un):
を維持したまま\mathcal{D}_a が消えてるかを見ます.c_{\mathrm{tar}} - Coarse-Grained Unlearning (CG-Un):
でのモデルの汎化性能を見ます.\mathcal{D}_r
どちらもベースラインはESD, CA, FMN, SPM, Recelerです.
Stanford Dogs, Oxford Flowers, CUB, ImageNet-1kを使って分類性能で確認します.
評価にはErasing Accuracy
ここで,
では, 結果を見てみます.

この結果からわかるように, 既存手法は高い消去性能を示していますが隣接概念の保持ができていません. 一方提案手法は既存手法にほんの少し劣る程度の消去性能で隣接概念の保持がかなり高い精度でできています. この2つの観点から考えると, 非常に提案手法は優れていると言えます.
続いて定性的比較を行います.

ここでは各データセットに対してtarget conceptとその隣接概念に対する生成結果を示しています. 例えばESD, FMN, Recelerは隣接概念の生成結果が破綻していることがわかります. CAとSPMは一見良さそうに見えますが, 犬種などの細かい情報が消えてしまっています. 例えば「犬」や「鳥」という区分は保持できているがそれ以上の込み入った情報については失われている, ということです. それに対して提案手法は隣接概念を特定属性における細かい部分まで保持していると著者らは主張しています.
続いて, ImageNet-1kの結果を見ます. 論文では「ボール、トラック、犬、魚といった特定の対象クラスに対して実施された」と述べられていますが実態はimagenetteです.

概ね先ほどと同じ結果が出ており, 消す概念が変化しても性能の高さがわかります.
次に, これまでの実験とはあまり関係ないですが, ImageNet-1kのfine-grainedクラス分類とfine-grainedデータセットを使って意味的類似度の増加に伴う堅牢性を確認します. 以下の図では, CLIPベースの構造的類似度 (円形軸)と平均隣接精度(放射軸)との関係が示されています.

FMNとESDは類似度78%で性能が低下し始め, Recelerは80%で完全に機能しなくなることがわかります. SPMはそれなりの堅牢さですが, 90%を超える類似度では性能が著しく低下しています. これに対して提案手法であるFADEは高い隣接精度を維持し, 類似度が高い場合でも頑健性を発揮しています. 余談ですが, 類似度100と0が同じ場所にプロットされており, 円形のグラフを使うのは良くないように思えます.
思ったこと
- やけに参照されていない図がmainの部分に多く, 何が言いたいんだという感じがします.
- この研究はよりピンポイントでの消去を目指しています. 例えばgolf ballを消したかったらtennis ballには影響を与えてはいけません. これは実用的な研究でいいなと思う一方で, ピンポイントな消去は攻撃に弱そうなイメージがあります. なので, 攻撃手法に対する堅牢さを主張してほしいです. もしかしたらあまり強くないので実験結果は載ってないとかはあるかもしれませんが...
- 複数概念への言及がないのも最近の概念消去の論文としてはあまりよくないかなと思います. ピンポイントな消去ができるならgolf ballとtennis ballは決してsoccer ballなどは残すみたいな運用がしたい場面への適用を考えたいです.
- ベースラインが弱いように思えます. 採択年が2024なだけで全ての研究が2023にarXivで発表されているもので, 最新の動向を反映したとは思えないです.
参考文献
- Kartik Thakral, Tamar Glaser, Tal Hassner, Mayank Vatsa, and Richa Singh. Fine-grained erasure in text-to-image diffusion-based foundation models. In Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR), pages 9121–9130, June 2025.
Discussion