👌

Stable Diffusionからの概念消去㉙: HiRM(論文)

に公開

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

ICLR 2026採択論文を見ます.

書籍情報

Uichan Lee, Jeonghyeon Kim, and Sangheum Hwang. Localized concept erasure in text-to-image diffusion models via high-level representation misdirection. In The Fourteenth International Conference on Learning Representations, 2026.

関連リンク

はじめに

昔にcausal tracingによる分析結果を用いた概念消去手法について紹介しました.

https://zenn.dev/fmuuly/articles/fbe5e21ead7aa9

https://zenn.dev/fmuuly/articles/17260841a93e59

他にもこのような試みは行われており, 例えば Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines (Toker et al., 2024) や, A Cat Is A Cat (Not A Dog!): Unraveling Information Mix-ups in Text-to-Image Encoders through Causal Analysis and Embedding Optimization (Chen et al., 2024)
などが挙げられます. 言ってしまえば当たり前のことに思えますが, これらの研究では「拡散モデルを構成する要素の全てが等しく概念の符号化に寄与しているわけではない」ということを示しており, 特定のパラメータなどへの重要性を語っています. 例えば最初に挙げたDiffQuicFixではText Encoderの最初のself-attentionの W_{out} のみを閉形式で上位概念へ誘導することで概念消去を行う手法でした.

このような手法には2つのメリットがあります. ひとつめは, U-Netには変更を加えず, Text Encoderに変更を加える点です. これによって多くの場合共通化されているText Encoderを転移させることで他のモデルからも消去を行うことができます. ふたつめは, Text Encoderの局所化された表現を修正するので効果的に消去ができるという点です. ところがこのアプローチでは, NSFWのような場合にはデグレを引き起こします. これは, nudityのような概念は抽象度が高く, 文脈依存によって意味が確定することが多いと考えられます.

著者らはそのことを実験を通して明らかにし, 異なる概念のカテゴリ間に応じてトレードオフがあることも示します. そして, モデル更新を行う位置と意味的消去の対象とを分離する手法であるHiRMを提案します.

概念表現におけるText Encoderの役割

一般的なText-to-Imageの場合, 複数のTransformerブロックから構成されるCLIP Text Encoderを用います. もちろんImagenのようにT5を使う事例もあります. また, 最近の商用サービスはAutoregressiveを用いているのでこの議論は通じないかもしれないです. とりあえずはStable Diffusionの系譜を想定していると考えられます.

既存の概念消去手法では, U-Netのfine-tuningがメインでした. しかし, これは計算コストが高い上に, 概念消去性能と概念保持のトレードオフの関係が複雑になります. 先ほど紹介したDiffQuickFix(論文内ではDoff-Qと呼ばれています)は, 閉形式かつtext encoderへの介入ということで, U-Netの際の2つの問題を克服しようとしています. 実際, 1000倍程度の高速化を達成しており, 非常に有用でした. 一方で先ほど述べたように, NSFWの消去は微妙な性能です. このことは, 最初のself-attentionだけでは抽象概念を捉えることができていないと考えることができます.

他方で, LLMの分野でもUnlearningは盛んに研究されています. 例えば, 有害な概念をランダム化された方向へ特定の内部表現を誘導することで抑制しつつ, 一般的な性能を保つために少数の中間層のみを修正する手法である Representation Misdirection Unlearning (RMU) などが提案されています. これをDiffQuickFixに適用して, 上位概念ではなくランダム概念に誘導する手法を仮にDiff-Q*としておきます.

これによってI2Pは非常に低下し, 大きな成功となるのですが, MSCOCO-1kの結果を見てみると, 問題があります. CLIP Scoreが大きく低下し, LPIPSも上昇していることです. これはText Encoderの初期層における表現が幅広い基本的な特徴を捉えていることに起因します. これにより, Representation Shattering と呼ばれる現象が発生し, 本来保持すべき概念の生成品質が大幅に悪化します.

一方で, 次のような考え方もあります. 「Text Encoderの後ろの層が多様な情報を統合し, 一貫した意味表現を形成する役割を担っている」というDiffusion Lensでの観察に従って, 初期層に摂動を与えるのではなく, 最終的な出力から取り除くべきというものです.

High-Level Representation Misdirection

提案手法では上記の2つの考え方を組み合わせることを考えます. つまり, 「Text Encoderの出力における概念表現を変えることを目的として, 初期層を更新する」という流れです. これが最初に述べた「モデル更新を行う位置と意味的消去の対象との分離」になります.

前提

f_{\mathrm{text}} を, L 個のTransformerブロックから構成される CLIP Text Encoderとします. 最初の層のパラメータを \theta_1 とします. \theta_1 にはself-attentionとFFNを含むことに注意します. また, 2番目以降の層のパラメータはまとめて \theta_{2:L} とします. \theta_{2:L} は固定され, \theta_1 のみ更新します. prompt x が与えられると, それはspecial tokenを含む最大 T 個のトークン列 v=\mathrm{Tokenizer}(x) へとtokenizeされます. これらトークンは埋め込まれて h^{(0)}=\mathrm{Embed}(v) という隠れ状態になります. この隠れ状態はTransformerブロックを順々に通過し, h^{(l)}=\mathrm{TransformerBlock}_l(h^{(l-1)};\theta_l) となります. 最後のTransformerブロックのトークンごとの出力列を高次表現と呼ぶことにし, h^{(L)}=[h_1^{(L)}, h_2^{(L)}, \ldots,h_T^{(L)}] とします. この表現は, x に対応する高次の意味情報を符号化していると既存研究で見なされています.

HiRM

提案は高次表現 h^{(L)} を target conceptから遠ざけるよう誘導することで概念消去を行います. 2つのバリエーションが提案されていて, 順々に見ていきます.

  1. 表現をランダム方向へ向けてリダイレクトする方法(HiRM-R)
  2. 意味的に定義された方向へ整合させる方法(HiRM-S)

HiRM-R

target conceptを含むプロンプトに対して h^{(L)} がランダムにサンプリングされた表現になるようにします. 各トークン位置 t\in \{1, \ldots, T\} ごとに独立にベクトル r_t\sim\mathcal{N}(0, I_d) をサンプリングし, 正規化を行なって \hat{r}_t=r_t/\|r_t\|_2 とします. これを並べて得られる行列 \hat{R}=[\hat{r}_1, \ldots, \hat{r}_T]\in\mathbb{R}^{T\times d} を目標のランダム概念とします.

target conceptを含む x に対して, \hat{R} をサンプリングし, 各トークンの最終表現 h^{(L)}_t\hat{r}_t の方向に誘導する損失を定義します.

L_{\text{HiRM-R}}(x; \theta_1, \hat{R}) = \frac{1}{T} \sum_{t=1}^{T} \left\| h^{(L)}_t - c \cdot \hat{r}_t \right\|_2^2

HiRM-S

これまでの誘導は概念の misdirection と論文では言われています. これを単なるランダムベクトルからより洗練されたものにすることで misdirection を強固なものにできるようです. 例えば, target conceptが Van Gogh Style の場合, 上位概念のひとつである Painting になるように誘導します. このアイデア自体は既存研究でも多く用いられたものです. この場合の損失は以下のようになります.

L_{\text{HiRM-S}}(x; \theta_1, \hat{S}) = \frac{1}{T} \sum_{t=1}^{T} \left\| h^{(L)}_t - c \cdot s^{(L)}_t \right\|_2^2

これまでの記事で私もたびたび指摘した気がしますが, 上位概念なんてものはそう簡単に思い浮かぶものではないですし, 普通に包含関係があります. Van Gogh StyleがPaintingになるのはわかりやすいですが, 例えばClaude Monet StyleがImpressionismになったらどうなるのでしょう. あまりClaude Monet Styleが消去できていないという判定になってしまうのではと思います. このように, (既存研究では無視されがちですが)適切な概念を用意することは難しいです. また, これとは少し異なることがNSFWでも発生します.

著者らはそのようなことも想定して, safety misdirection vectorを導入します. これは, 元々敵対的攻撃手法として提案されたRing-A-Bellを組み込むもので, target conceptを含むpromptと含まないpromptの埋め込みの差を計算することで経験的表現 V_e を得ます. 以降ではNudityを例にとって話を進めます.

まず, Nudity関連のpromptから高次の意味表現 Z=[z_1, z_2, \ldots, z_T] \in \mathbb{R}^{T \times d} を取得し, そこから経験的nudity vector V_e = [v_1, v_2, \ldots, v_T] \in \mathbb{R}^{T \times d} を引き算することで, safety misdirection vectorを取得することができます. 意味的にはnudity要素のないpromptの表現ということになります.

実験

実験設定

UnlearnCanvasを用いて概念消去を行います. 私の記憶が正しければ, UnlearnCanvasをメインで用いる論文はほとんどなく, これが初めてなのではという印象です. 軽く説明をすると, 60 artistic styleと 20 object categoryから構成されます. 全部で 60\times 20=1200 種類ということになります. NFSWの消去にはいつものI2Pを使用します. 頑健性評価ではRing-A-Bell, MMA-Diffusion, UnlearnDiffAtk を用います. UnlearnDiffAtkのみwhite-boxで, 残りはblack boxです.

ベースラインとして, ESD, AC, UCE, Ediff, SHS, Salun, MACE, RECE, TraSCE, SafreeおよびDiff-Q*を使用します.

評価指標は UnlearnCanvas に従って4つが用いられます.

  1. Unlearning Accuracy (UA)
  2. In-domain Retention Accuracy (IRA):同一ドメイン内における non-target promptから生成された画像の分類精度
  3. Cross-domain Retention Accuracy (CRA):異なるドメインに属する non-target prompt から生成された画像の分類精度
  4. Average Accuracy (AA):UA、IRA、CRA の平均

NSFW の場合は ASR を用います. いつも通り NudeNet での検出率ですが, これに依存することを避けるために InternVL2.5-8B も使用します. その他にこれも恒例ですが, MSCOCO-30kで CLIP Score と FID を測定します.

学習設定は以下のようになります. retrain datasetは用いません.

HiRM-Rの場合

学習率 Epochs
Style 5\times 10^{-5} 40
Object 5\times 10^{-5} 25
NSFW 1\times 10^{-4} 50

HiRM-Sの場合

学習率 Epochs
Style 5\times 10^{-5} 30
Object 5\times 10^{-5} 15
NSFW 1\times 10^{-4} 25

実験結果

まずは UnlearnCanvas での結果を見てみます.

ほとんどの手法では UA と IRA/CRA の間にトレードオフが確認できます. 特に, UCE, Ediff, SHS といった手法では retrain datasetを用いているにも関わらずこのトレードオフを克服できていな点は興味深いです. ESDに関して著者らは

ESD demonstrates strong performance in removing target styles while maintaining utility for the retain set; however, when the target is an object, its utility preservation deteriorates substantially.

と述べていますが, ESD-xとESD-uがあり, 少なくとも論文からはどちらをやっているのか, あるいは適切に使い分けたのかは判断できなかったです.

Diff-Q* や提案手法はこのトレードオフを克服できているように見えます. HiRM-R と比較して HiRM-S はさらに精度が上がっており, misdirection の効果を感じられます. 重要なのは, Text Encoderの最初の self-attention を対象に更新した手法がよい成果を出していることです. さらに, 実行時間やメモリの観点でも非常に優秀です.

続いて Nudity の評価を見てみます.

Salun や RECE は非常にロバストであることがわかります. 一方で CLIP Score や FID は大幅に悪化しており, 無関係な概念の保持ができていないことを表しています. Ediff はいい感じの性能をしているように見えますが, style や object での結果が芳しくなく, 全てを達成するのは難しいことがわかります. Diff-Q* も同様で,敵対的攻撃に脆弱であることがわかります. 提案手法はそのような状況でも非常に高い性能を出しています.

ちなみに, NudeNet の代わりに InternVL2.5-8B を用いた場合の結果は以下に示すようになります. あまりランキングに大きな変化はなく, どっちも使えばより安心くらいの印象を受けます.

思ったこと

  • 結構シンプルですが, 既存研究の正統進化感があって, とてもいいなと思いました. やはりU-Netを取り回すのは非常に大変なので, 手軽に扱えるText Encoderをメインにしたほうがいいのでは...という気持ちになりました (また, 私が実験している限りでは, U-Netのlearning-basedの手法はimplicit promptに結構弱いので, その点でもText Encoderにフォーカスするのは自然に思えます).
  • lossのtargetになるのがText Encoderの最終層の出力なのもなるほどなあと思いました. 直感的には, 最初の層の出力結果の変化は当然全体に影響を及ぼすので, 全体の変化を勘案できるという意味で納得感がありました.
  • 結構メジャーであるimagenetteの結果も見たいなと思いました. 私が公式実装を動かした感じではimagenetteを超えてcifar-10とかでもよさそうな結果でした.
    1枚しか生成しなかったので評価するには微妙ですが, catを消した場合は以下のようになりました. explicitであるひとつめのpromptはもちろん, feline animalのような場合でもcatは出ずにネコ科の動物になっていそうな雰囲気です(こちらは2枚生成しましたがどちらも成功していました).
    • prompt: a photo of a cat
    • prompt: a photo of a feline animal

参考文献

  • Uichan Lee, Jeonghyeon Kim, and Sangheum Hwang. Localized concept erasure in text-to-image diffusion models via high-level representation misdirection. In The Fourteenth International Conference on Learning Representations, 2026.
  • Michael Toker, Hadas Orgad, Mor Ventura, Dana Arad, and Yonatan Belinkov. Diffusion lens: Interpreting text encoders in text-to-image pipelines. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024.
  • Chieh-Yun Chen, Chiang Tseng, Li-Wu Tsao, and Hong-Han Shuai. A cat is a cat (not a dog!): Unraveling information mix-ups in text-to-image encoders through causal analysis and embedding optimization. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.

Discussion