【論文紹介】CLIPはなぜ“自信満々に間違える”のか? クラス内分布で解決する新アプローチ
今回の記事では、CLIPなどのVLMにおける誤分類検出を扱った「Intra-Class Probabilistic Embeddings(ICPE)」という手法の論文について簡単にまとめました。
一言でいうと
CLIPのようなVLMは、誤分類しているのに高い自信で答えてしまう問題を抱えています。
この論文はその原因を「画像–テキストのモダリティギャップ」と考え、以下を明らかにします。
- 画像–テキストの距離ではなく、画像–画像(同クラス内)の分布を見ることで誤分類を判定
- PCAによる次元圧縮が“めちゃくちゃ重要”
- 学習不要(後処理でOK)なのにSOTAの誤分類検出性能を達成
概要
CLIPやSigLIPなどのVLMは、画像・テキスト間の類似度をコサイン類似度で算出します。しかし誤っている場合でも高いコサイン類似度を出すことがあり、これは信頼度指標として信頼できないことを示しています。
課題1:モダリティギャップ
画像とテキストの埋め込みがそもそも異なる領域に分布しているため、類似度が真の信頼度を示しておらず、モダリティギャップの影響が支配的になっている。
課題2:誤分類でも自信満々
類似度が高ければsoftmaxも高くなるため、誤分類でも90%超えのconfidenceを出すことも多い。
課題3:既存の不確実性推定は重い or 目的に合っていない
- 学習が必要(PCME, ProbVLM など)
- クロスモーダル(画像-テキスト)的に偏っている
- 計算コストが高い
上記課題をを解決する手法「ICPE」を提案します。
手法

一言でまとめると、同じクラスの画像特徴がどんな分布をしているか?をガウス分布として保存し、「テスト画像がその分布にどれくらいフィットしているか」で信頼度を推定します。
手法の流れは大きくは2つあります。
- 訓練時:クラス内の分布を“多変量ガウス”でモデリング
- 訓練画像をVLMのimageエンコーダを通して埋め込みベクトルを取得
- PCAで128次元に圧縮
- クラスごとに平均
と共分散μ を計算Σ
→ クラス はc として表現される。N(μ₍c₎, Σ₍c₎)
- 推論時:テスト画像の“尤度”を見る
- テスト画像の埋め込みを同じPCA空間に射影
- テキストベクトルとのコサイン類似度によりクラス
を得るc - その特徴がクラスガウス分布の中でどれくらい自然か、対数尤度
を計算s_{\hat{c}} - 対数尤度を全クラスに対してsoftmax正規化し、クラス内不確実性スコア
を得るs_d - 最終的な不確実性スコアを次で定義する。ただし
は画像–テキスト類似度から得られる最大softmax確率であるp_{\max}
s_{unc} = 1 − ( p_{\max} + s_d ) / 2
→ VLM が元々得意なクラス間(画像-テキスト間)類似度と、クラス内一貫性( )を踏まえた不確実性スコアとなる。s_ĉ
上記の流れによって、不確実性スコアを得ることができます。これは元々の埋め込みベクトルや分類結果には影響を与えず、独立したスコアとなります。
実験
誤分類検出タスクを **2値分類問題(正しい予測の保持 vs. 誤りの棄却)**として扱い、下記3つの尺度で比較をします。
- ROC曲線下の面積(AuROC)
- 真陽性率95%における偽陽性率(FPR95)
- Precision-Recall曲線下の面積(AuPR)
またデータセットとしては下記の5つを使用します。
- ImageNet-1K(1000クラス:一般物体・動物)
- Flowers-102(102クラス:花の種類)
- Food-101(101クラス:食べ物)
- EuroSAT(10クラス:衛星画像・土地利用)
- DTD(47クラス:テクスチャ)

表に示すように、提案手法は5つすべてのデータセットにおいて誤分類検出で最高精度を達成しています。特に、次点の手法と比較してAuROCが4〜23%、FPR95が 11〜31%と、大幅に改善しています。
注目すべきは、CLIPとSigLIPの両方のVLMにおいて一貫してベースラインを上回る点です。これらの結果は、VLMバックボーンに依存しない誤分類検出の性能を裏付けるものと言えます。

訓練画像枚数を変化させた場合の不確実性推定性能に与える影響を評価します。図に示されるように、提案手法は1クラス10枚の画像だけでSOTAを達成しています。とはいえ、サンプル数が増えるにつれてクラス分布がより豊かに表現されるため精度は向上します。

提案手法のクラス内不確実性スコアを、PCAあり/なしで比較し、特徴射影の影響を評価したものです。PCAを導入することで精度が大幅に向上しており、PCAによる特徴射影は、クラス分布を適切にモデル化するために不可欠だといえます。
まとめ
“VLM が自信満々に間違える理由” に対して、「クラス内の画像分布を見てないから」という仮説を立案し、クラス内の画像分布を用いた不確実性スコアを定式化することで、誤分類検出タスクでのSOTAを達成しています。
以下の点で応用範囲も広く、VLMの信頼性向上に直結する研究でした。
- 高精度の誤分類検出
- 学習不要
- 既存モデルをそのまま利用
Discussion