🔍

【論文解説】画像認識精度を上げたいなら双曲空間を使おう (画像の新しいカテゴリ発見)

に公開

1. はじめに

alt text

図1: 球面ベース vs. 双曲ベース手法の概念図(左)と本手法と従来手法の精度比較(右)。左では、球面空間では異なるスケールの物体(左上の水色枠)は同一球面上に配置されるためうまく関係を捉えられないが、双曲空間では半径方向の次元が加わりスケール差を表現できる(右上の緑色枠)。右の棒グラフはStanford-Carsデータセット上での従来SOTA手法(薄緑)と本手法HypCD(濃緑)の精度(ACC)を示し、全クラス(All)、既知クラス(Old)、未知クラス(New)のすべてで本手法が向上し、特に未知クラスで大幅な改善が得られている(8.4ポイント向上)ことがわかる。

Generalized Category Discovery(一般化カテゴリ発見, GCD)は、近年注目を集めるオープンワールドな課題です。GCDでは、一部にラベル付きデータを含むデータセットを扱い、未知のクラスを含む未ラベル部分の画像すべてに対し、既知クラス・未知クラスを問わずカテゴリ分割(クラスタリング)を行います。典型的なアプローチでは、自己教師型学習済みのバックボーンに球面射影(特徴を単位球上に正規化)を適用し、ユークリッド空間または球面空間で特徴表現を学習します。しかし、ユークリッド空間や球面空間では階層構造を持つデータの表現には不十分であることが指摘されています。例えば画像カテゴリには上位・下位の概念階層(「乗用車」→「セダン」「SUV」等)が存在しますが、従来の空間ではこうした階層的関係をうまくエンコードできません。一方、双曲空間(Hyperbolic space)は半径に対する体積の増大が指数関数的であり(中心から遠ざかるほど空間容量が飛躍的に増える)、データの持つ階層構造を表現するのに適した性質を持ちます。実際、双曲空間は木構造や階層構造の埋め込みに適していることが知られ、近年コンピュータビジョン分野でも物体検出やセマンティックセグメンテーションなどで有効性が報告されています。

以上を踏まえ、本論文ではカテゴリ発見(Category Discovery)の課題に双曲空間で取り組むことを提案しています。提案手法HypCDHyperbolic Category Discoveryの略)は、バックボーンで得た特徴をユークリッド空間から双曲空間に変換し、階層構造を捉える表現学習分類器学習を行うフレームワークです。特徴空間を双曲空間に置き換えることで、サンプル間の双曲距離とベクトル角度の両方を考慮した学習が可能となり、既知クラスから未知クラスへの知識伝達(Knowledge Transfer)が促進されます。著者らはHypCDを既存の各種ベースライン手法に適用し、公的ベンチマークで包括的に評価した結果、一貫して有意な性能向上を達成しています。

本論文の主な貢献は以下の3点にまとめられます。

  • 双曲幾何の導入: GCDタスクにおける既存手法の欠点(階層構造を捉えられない点)に着目し、ユークリッド/球面空間の代わりに双曲幾何を特徴空間に組み込むアプローチを提案。
  • HypCDフレームワーク: 階層構造対応の特徴表現と分類器を学習するシンプルで効果的なフレームワークHypCDを開発。自己教師あり・教師ありのコントラスト学習において双曲距離と角度の双方を用いた損失を設計し、また従来のユークリッドMLP分類器を双曲空間対応の分類器(HypFFN)に置換することで、既知から未知クラスへの知識伝達性能を向上。
  • 包括的実験検証: 提案手法を複数の最先端GCD手法(パラメトリック法・非パラメトリック法の両方)に適用し、広範なベンチマーク実験を実施。常に安定した精度向上と最先端性能の更新を示し、双曲空間の有効性と優越性を明らかにしました。

本稿では論文の各章に沿って、上記HypCDの背景・手法・実験結果について詳しく解説します。

2. 関連研究

カテゴリ発見の手法: カテゴリ発見(Category Discovery)は、初期には新規カテゴリ発見(Novel Category Discovery, NCD)として提案され、ラベル付きデータから得た知識を使って未ラベルデータ中の新規クラスを発見するタスクとして研究されてきました。後に一般化カテゴリ発見(Generalized Category Discovery, GCD)へと拡張され、未ラベルデータ中に既知クラスと未知クラスの両方が混在するより現実的な設定が扱われます。GCDの難しさは、部分的にラベル付けされたデータで学習し、未知のクラスも含めた分類を行う点にあります。既存手法は大きく非パラメトリック手法パラメトリック手法に分けられます。非パラメトリック法は特徴のクラスタリングによって直接カテゴリを割り当て(例: k-meansでクラスタを発見し、そのクラスタをカテゴリとみなす)、パラメトリック法はニューラルネットの分類ヘッド(パラメトリック分類器)でクラス予測を行います。いずれの方法も、既知クラスから未知クラスへの知識転移が性能の鍵となります。

alt text

知識転移を促進するため、近年の手法では物体の部分(パーツ)に注目した特徴表現強化が試みられています。例えば、入力画像に対し局所領域ごとのプロンプトを学習して細かな特徴を抽出する方法や、物体パーツレベルの特徴を利用する方法があります。これらは既知クラスから未知クラスへの共通部分(例: 動物の種は違っても共通する身体部位など)を手掛かりに、新クラスをより良く識別しようとする試みです。しかし従来手法の多くはユークリッドあるいは球面空間で特徴表現を行っており、特徴間の距離計算や類似度計算もユークリッド距離やコサイン類似度に基づいていました。ユークリッド空間では距離と階層構造にポリニー(多項式的)な関係があり、球面空間では半径方向の情報が失われ半径に対して体積が多項式的にしか増えないため、多層的な階層構造の表現には不向きだとされています。実際、画像認識タスクではクラス間・クラス内に階層的な類似度関係が存在しますが(図2参照)、従来空間ではこれを柔軟に扱えないため、新規クラス発見の柔軟性やスケーラビリティに制約が生じていました。

一方、双曲幾何学は近年機械学習への応用が進んでおり、木構造データの埋め込み、グラフニューラルネットワーク、画像判別、物体検出、異常検知など様々な分野でその効果が示されています。双曲空間(定曲率 -1 の空間)は、非ユークリッドながらユークリッド空間と共形で(角度は保たれる)、かつ半径方向に大きな表現容量を持つため、階層的な特徴関係のモデリングに非常に適しています。本研究以前にも、画像認識の文脈で双曲空間への特徴マッピングを行う試みが報告されており、Transformerに双曲幾何を組み込んだ研究や、ハイパーボリックCNNなどが存在します。とはいえ、カテゴリ発見タスクに双曲空間を用いた例はなく、本研究がその先駆けとなっています。

3. 提案手法: HypCDフレームワーク

本章では、まずGCDタスクの定式化(Sec.3.1)、続いて既存ベースライン手法の再整理(Sec.3.2)を行い、次に提案フレームワークHypCDの詳細(Sec.3.3以降)を説明します。

3.1 問題設定と課題の定式化

問題設定: GCDタスクでは、ラベル付きデータ集合 D_l と未ラベルデータ集合 D_u が与えられます。ラベル付き集合には既知クラスのみが含まれ、未ラベル集合には既知クラスと未知クラスのサンプルが混在すると想定します。既知クラスの集合を Y_l、未知クラスの集合を Y_u とし、全クラス集合は Y = Y_l \cup Y_u となります(未知クラス数|Y_u|は設定により既知あるいは未知)。目的は、D_u 中のすべてのサンプルに対し適切なクラスラベルを割り当てることです。既知クラスに属するサンプルは正しく既知クラスのラベルに、未知クラスに属するサンプルは新たなクラスタ(ラベル)を発見して割り当てる必要があります。

評価指標: 未ラベルデータに対するクラスタリング精度(Accuracy, ACC)が主要な評価指標として用いられます。ACCは各予測クラスタと真のクラスの最適なマッチングを取った上での割り当て精度で、具体的には次式で定義されます。

\text{ACC} = \frac{1}{|D_u|} \sum_{i=1}^{|D_u|} \mathbf{1}\{\,y_i = h(\hat{y_i})\,\},

ここでy_iはサンプルiの真のクラス、\hat{y_i}はモデルが与えた予測クラスタ、h(\cdot)は予測クラスタと真のクラスを対応付ける最適な射影(パーミュテーション)関数、\mathbf{1}{\cdot}はインジケータ関数です。ACCは未ラベル全体(All)に加え、既知クラス(Old)由来のサンプルに対する精度と未知クラス(New)由来のサンプルに対する精度も個別に算出し、既知・未知間の性能ギャップも分析します。

3.2 既存ベースライン手法の概要

GCDの代表的ベースラインとして、本論文では以下の2手法を取り上げています。

  • Non-parametric baseline (GCD) : Yangら【51】による手法で、自己教師型学習済みバックボーンから得た特徴に対し、コントラスト学習+クラスタリングで未知クラスを発見します。具体的には、まずラベル付きデータと未ラベルデータを混ぜて自己教師ありコントラスト学習(SimCLR類似の手法)で表現を学習します。学習後、ラベル付きデータは既知クラス分類に用い、未ラベルデータは半教師ありk-meansによりクラスタリングして未知クラスを割り当てます。非パラメトリック法では学習中に明示的な「未知クラス」識別は行わず、クラスタリング結果で暗に新クラスを発見する流れです。

  • Parametric baseline (SimGCD) : Wangら【59】による手法で、自己蒸留(self-distillation)を用いたパラメトリックな手法です。大まかな流れは、まず自己教師ありコントラスト学習で特徴表現を学習しつつ、並行してバックボーンの出力にMLP分類器を付加し既知クラス分類を学習します。未知クラスについては、学習の初期段階では大分類(例えば「未知」クラス)として扱い、エポックを通じてモデル自身の出力に基づく自己ラベルを徐々に洗練させる戦略を取ります(詳細は原著[59]を参照)。これにより、モデル内部で新しいクラスの判別境界を形成していきます。SimGCDは教師ありの識別損失と自己教師ありのコントラスト損失を組み合わせて学習しており、また既知・未知の特徴バランスを取る工夫(例えば既知クラスの特徴を均一化する正則化)も導入されています。

以上2手法はいずれも特徴空間はユークリッド/球面で行われ、コントラスト学習ではコサイン類似度(角度ベース)またはユークリッド距離(距離ベース)のどちらか一方のみを損失関数に用いていました。本研究ではこれらのパイプラインを踏襲しつつ、特徴空間を双曲空間に置換し、距離と角度の両情報を活用した損失設計を行う点が差分となります。次節以降でHypCDの手法詳細を述べます。

3.3 ユークリッドから双曲空間への写像

HypCDではまず、バックボーンから得られる特徴ベクトルをユークリッド空間から双曲空間にマッピングします。双曲空間のモデルとしてはPoincaré Ballモデルを用いており、半径方向の尺度を持つ開球内で特徴を表現します。ユークリッド空間 E^n の特徴ベクトル \mathbf{z} を双曲空間 H^n に写す写像として、本論文では指数写像 (Exponential mapping) を利用しています。指数写像とは、ユークリッド空間の接ベクトルを対応する双曲空間上の点に射影する変換であり、接空間上のユークリッドベクトル\mathbf{z}基点 o(Poincaré球モデルでは通常原点)から双曲空間へ写す操作です。具体的な式は以下のように与えられます。

\mathrm{exp}_{o}^c(\mathbf{z}) \;=\; o \oplus_c \Big( \tanh\!\big(\sqrt{c}\,\frac{\lambda^c_o \|\mathbf{z}\|}{2}\big)\, \frac{\mathbf{z}}{\sqrt{c}\,\|\mathbf{z}\|} \Big), \tag{7}

ここで\oplus_cメビウス加法 (Möbius addition)を表し、cは双曲空間の曲率パラメータ(c>0で曲率-cの空間になります)、\lambda^c_oは双曲空間における縮尺因子です。\tanh項はユークリッドノルム|\mathbf{z}|を半径方向に圧縮して双曲空間に収まるようにし、\oplus_cによって原点oからその方向へ写像します。この操作により M(\mathbf{z}) = \mathrm{exp}_{o}^c(C(\mathbf{z}))としてユークリッド特徴\mathbf{z}が対応する双曲特徴\mathbf{z}_Hに写像されます。ただし、Poincaré Ballモデルでは球の端(半径1に近づく領域)で勾配消失が起きやすい問題が知られているため、写像の前に特徴クリッピングと呼ばれる操作を導入しています。これは単純に、\mathbf{z}の大きさがある閾値r以上にならないようクリップする操作で、式で書くと C(\mathbf{z}) = \min\{1, \frac{r}{|\mathbf{z}|}\}*\mathbf{z} です。こうすることで極端にノルムが大きな特徴ベクトルが発生するのを防ぎ、球面境界付近での数値不安定を緩和します。

双曲距離の定義: 双曲空間では点a, b \in H^n間の距離 D_H(a,b) は、メビウス加法と\tanh^{-1}(arctanh)を用いて次式で与えられます。

D_H(a, b) \;=\; \frac{2}{\sqrt{c}}\; \operatorname{arctanh}\!\Big(\sqrt{c}\,\| -a \oplus_c b \|\Big) \tag{6}

ここで-a \oplus_c bはベクトルaからbへの相対位置ベクトルを双曲加法で表現したものです。式(6)はPoincaré Ballモデルにおける標準的な距離関数で、c \to 0と極限をとればユークリッド距離の2倍に収束します(\lim_{c\to 0} D_H(a,b) = 2|\mathbf{a}-\mathbf{b}|,)。このように、cの値で空間の曲率(双曲度合い)を調整でき、c=0に近づくほど双曲空間はユークリッド空間に近づきます。

3.4 階層構造対応の表現学習(コントラスト学習)

alt text

図3: HypCDフレームワークの全体像。(a)自己教師あり・教師ありの双曲空間表現学習: バックボーンから得た特徴を指数写像で双曲空間にマップし、距離に基づく損失L^{dis}と角度に基づく損失L^{ang}を組み合わせて最適化。(b)双曲分類器(HypFFN): 重み共有の2層MLP(隠れ層省略)で双曲空間上の線形変換を行いソフトマックスで確率出力。(c)非パラメトリックなラベル割り当て: 学習後、既知(B_l)・未知(B_u)の特徴をユークリッド空間に戻して半教師ありk-meansでクラスタリングしラベル決定。(d)パラメトリックなラベル割り当て: HypFFNから得たソフトマックス確率で直接既知・未知クラスの識別を行う(自己蒸留により未知クラスも出力が確立する)。

双曲空間における特徴表現学習では、自己教師あり教師ありのコントラスト学習を組み合わせて用います。これは既存研究【45,51,59】でも採用されている手法ですが、本研究ではその類似度計算を拡張した点が特徴です。従来手法ではコントラスト損失においてコサイン類似度(角度ベース)またはユークリッド距離(距離ベース)のいずれか片方だけを使用していましたが、本手法では距離に基づく項と角度に基づく項をハイブリッドに組み合わせています。著者らは引用文献【18】にならい、双曲空間でのモデル最適化には両者を統合した方が効果的であると述べています。

自己教師ありコントラスト損失: バッチ内のサンプルについて、あるサンプル\mathbf{z_i}とそのデータ拡張ペア\mathbf{z'_i}(同一画像から異なる変換で得た2つのビュー)を正例として近づけ、それ以外を負例として区別するInfoNCE損失に従います。双曲空間での自己教師あり損失 L_u は次式で表されます。

L_{u} \;=\; -\frac{1}{|B|} \sum_{i\in B} \log \frac{\exp\!\big(S(M(z_i),\,M(z'_i)) / \tau_r\big)}{\sum_{j \neq i} \exp\!\big(S(M(z_i),\,M(z'_j)) / \tau_r\big)}

ここでBはバッチ中のインデックス集合、M(\cdot)は前節の指数写像による双曲空間へのマッピング、\tau_rは温度パラメータです。関数S(\cdot,\cdot)類似度関数で、本手法では距離ベースまたは角度ベースのいずれかを選択できます。距離ベースの場合、S_dとして負の双曲距離を用います(距離が小さいほど類似度大とする)。具体的には S_d(u,v) = -D_H(u,v) です。一方、角度ベースの場合はコサイン類似度 S_a を用い、双曲空間でもユークリッド空間同様に内積とノルムから算出します。

S_a(M(z_i), M(z'_i)) = \frac{M(z_i)\cdot M(z'_i)}{\|M(z_i)\|\,\|M(z'_i)\|} \tag{10}

双曲空間はユークリッド空間と共形であるため、コサイン類似度は両空間で等価に扱えます。

教師ありコントラスト損失: ラベル付きデータに対しては、同じクラスに属するサンプル同士を正例、それ以外を負例とする教師ありのコントラスト学習を導入します。損失関数の形は式(8)に類似しますが、和の範囲が**ラベル付きバッチB_l**内で同一クラスに属するペアN_iに限定される点が異なります(SupCon損失[51]と同様の形式)。式で表すと、

L_{s} \;=\; -\frac{1}{|B_l|} \sum_{i\in B_l} \frac{1}{|N_i|} \sum_{q\in N_i} \log \frac{\exp\!\big(S(M(z_i),\,M(z_q)) / \tau_r\big)}{\sum_{j \neq i} \exp\!\big(S(M(z_i),\,M(z_j)) / \tau_r\big)} , \tag{9}

となります(ここでもSS_dまたはS_a)。

距離+角度のハイブリッド損失: 自己教師あり・教師あり双方の損失において、距離ベースと角度ベースを組み合わせる最終的な損失は次式で与えられます。

L_{u}^{\text{hrep}} = \alpha_d L_{u}^{\text{dis}} + (1-\alpha_d) L_{u}^{\text{ang}}, \qquad L_{s}^{\text{hrep}} = \alpha_d L_{s}^{\text{dis}} + (1-\alpha_d) L_{s}^{\text{ang}}

ここでL^{dis}は距離ベース損失、L^{ang}は角度ベース損失を示し、\alpha_d \in [0,1]は両者の重みを調整するハイパーパラメータです。\alpha_d=1なら距離のみに、\alpha_d=0なら角度のみに極端化し、中間値では両者をバランス良く考慮します。最終的な表現学習の目的関数は、教師なし損失と教師あり損失をバランスさせた

L_{\text{Hrep}} = (1-\lambda_{b}^{H})\,L_{u}^{\text{hrep}} \;+\; \lambda_{b}^{H}\,L_{s}^{\text{hrep}} , \tag{12}

となります。ここで\lambda_{b}^{H}は教師ありと教師なしの損失比重を決める係数で、例えば\lambda_{b}^{H}=0.35とすれば教師なし(自己教師)損失を重視する設定になります。以上により、既知クラスはラベル監督下でクラスタをまとまり未知クラスは自己教師信号で特徴空間内に構造化されることになります。特に双曲距離による損失は、ユークリッド距離では等距離になってしまう異なる階層レベルのサンプル対を適切に遠ざけ、逆にコサイン類似度による損失は同一クラス内の姿勢や視点の違いによるベクトル方向のずれを補正する役割を果たします。この両者を組み合わせることで、階層構造を反映した特徴空間を効率的に学習できるのです。

3.5 双曲空間分類器 HypFFN

HypCDでは、パラメトリック手法(SimGCDなど)の分類ヘッドを従来のユークリッドMLPから双曲空間対応の分類器に置き換えています。著者らはこれをHypFFN(Hyperbolic Feed-Forward Network)と呼び、特に最終線形層として双曲線形層 (Hyperbolic linear layer) を実装します。先行研究によれば、双曲線形層はユークリッドMLP分類器と高い互換性を持ち、さらに双曲多項ロジスティック回帰より性能が良いことが報告されています。HypFFNの構造は基本的に通常の全結合ネットワークと同様ですが、その重みとバイアスの適用が双曲加法・メビウス積によって行われる点が異なります。

図3(b)にHypFFNによる分類器の模式図が示されています。最終線形層において、重み行列を W \in \mathbb{R}^{I\times K}(入力次元I, クラス数K)、バイアスを s \in \mathbb{R}^{1\times K} と表すと、入力の双曲特徴\mathbf{z}_H \in H^nに対し双曲線形変換は次のように定義されます。

\text{HypLinear}(\mathbf{z}_H; W, s) = \mathrm{Proj}\!\Big( (W \otimes_c \mathbf{z}_H)\; \oplus_c\; s \Big) \tag{13}

ここで\otimes_cメビウス行列積を表し(行列Wと双曲ベクトル\mathbf{z}_Hの積を双曲空間上で定義したもの)、\oplus_cはメビウス加法(前述)によるバイアス項の加算です。計算された結果が再びPoincaré球の境界に近づきすぎないよう、\mathrm{Proj}(\cdot)で安全な領域に射影しています(例えばノルムが一定値以上なら少し縮める操作)。式(13)の詳細な展開は複雑ですが、メビウス行列積W \otimes_c \mathbf{z}_Hは各出力ごとに\tanhとノルム比でスケーリングされた線形結合を計算する形になっています。要するに、ユークリッド線形変換を双曲幾何に適合するよう非線形変換したものと捉えればよいでしょう。

HypFFNを用いることで、既知クラス用に訓練された分類器をそのまま未知クラスの発見にも活用できます。具体的には、SimGCDのような手法では既知クラスに対してMLPで確率(対数確率)出力を得てクロスエントロピー損失を計算していましたが、HypCDではこれをHypFFNの出力に置き換えて双曲空間上でクロスエントロピー損失を計算します。双曲空間上でも各クラスに対するスコア(エネルギー)は計算できるため、従来と同様に\ell_{\text{ce}}(\text{HypFFN}(\mathbf{z}_H), y)という損失項を構築できます。さらに、GCD手法で用いられる平均エントロピー最小化(未ラベルデータの予測分布がシャープになるようエントロピー正則化をかける手法)についても、同様に双曲空間版に拡張して組み込んでいます。以上により、モデルは双曲空間上で階層構造を考慮しつつ既知クラス判別と未知クラス検出を同時に学習することが可能となります。

3.6 未ラベルデータへのラベル割り当て

最終的に、未ラベルデータD_uにカテゴリ(クラスタ)を割り当てるステップでは、元のベースライン手法に応じてパラメトリックまたは非パラメトリックな手法を採ります。本論文では、既存手法が持つラベル推定戦略をHypCDフレームワークに統合する形を取っています(図3(c), (d)参照)。

  • 非パラメトリック手法の場合(例: GCDベースライン【51】):双曲空間で学習した特徴を用いて、従来と同様に半教師ありk-meansクラスタリングを行います。著者らは、双曲空間で得た特徴をそのままクラスタリングすることも試みましたが、ユークリッド空間上でk-meansを行っても同等の性能でより効率的であったと報告しています。そのため実装では、学習済み特徴\mathbf{z}_Hを一度ユークリッド空間に戻す(例えば対数写像を使うか、あるいはバックボーン最終層の出力を直接使う)形でk-meansクラスタリングを適用し、未知クラスのグループ分けを決定します。このクラスタリング結果に既知クラスのラベルを加え、D_u内の全サンプルに対して最終的なラベル付けを行います。

  • パラメトリック手法の場合(例: SimGCDベースライン【59】):学習済みのHypFFN分類器をそのまま未知クラスの予測に使用します。具体的には、HypFFNの出力空間はクラス数K = |Y_l| + |Y_u|次元(既知+未知の総クラス数)に設定されており、学習初期には未知クラス部分はランダム初期化されています。その後、SimGCDの自己蒸留戦略により徐々に未知クラスの出力が洗練され、学習終了時にはHypFFNから既知・未知すべてのクラスの予測確率が得られる状態になります。未ラベルデータD_uに対してHypFFNを適用し、各サンプルが最も高い確率を持つクラスを割り当てます。これにより既知クラスはもちろん、未知クラスについてもHypFFNが新クラスの識別子として機能し、クラスタリング不要でラベル付けが完了します。

以上のようにHypCDフレームワークは、非パラメトリック法・パラメトリック法それぞれの長所を活かしつつ双曲幾何に拡張した形と言えます。図3(a)は双曲空間での表現学習パート、(b)は双曲分類器HypFFN、(c)は非パラメトリック手法でのクラスタ割り当て、(d)はパラメトリック手法での分類器割り当てを示しています。これらにより、階層構造を活かした特徴表現と分類が統合的に実現されます。なお、HypCD実装上は既存手法のコードに対し最小限の変更で組み込める設計となっており、パイプライン全体はシンプルかつ効果的です。

4. 実験

4.1 実験の設定

データセット: 評価には多様なベンチマークが用いられています。一般的な物体認識データセットとしてCIFAR-10CIFAR-100およびImageNet-100(ImageNetの100クラスサブセット)、細粒度(ファイングレインド)認識データセットとしてSemantic Shift Benchmark (SSB)を採用します。SSBは鳥類CUB-200、自動車Stanford-Cars、航空機FGVC-Aircraftの3つの細粒度データセットで構成されており、各データセットでクラスの一部を既知クラスに、残りを未知クラスとして分割して使用します。クラス分割と学習・テストへのデータ割り当てはGCD提案論文の設定に従っています。例えばStanford-Carsでは全196車種のうち半分程度を既知クラスとし、それらの半数の画像のみラベル付きで提供、残りは未ラベルとします(未知クラスの画像も未ラベルに含む)。このように既知/未知クラスを混合した未ラベル集合で評価を行います。

評価手法: 先述のクラスタリング精度ACC(All/Old/New)を主要指標とします。加えて、未知クラス発見の観点からOld vs NewのACC差分(旧クラスと新クラスで性能差がないほど良い)も評価します。モデルは各データセットについて既知クラス数=真の未知クラス数が与えられている前提で評価されます(総クラス数は既知+未知で既知側から把握できる)。

実装詳細: HypCDは上述の非パラメトリック手法(GCD[51])とパラメトリック手法(SimGCD[59])、さらに最新のSOTA手法SelEx[45](Selective Expansion、未知クラス検出を適応的に行う手法)に適用して検証されています。バックボーンにはVision Transformerの自己教師学習モデルであるDINO (ResNet50版[7]) とDINOv2 (ViT版[40]) の2種を使用し、異なる特徴抽出器での有効性も確認しています。より主要な学習設定をまとめます:

  • 特徴次元: GCD[51]ではバックボーン出力を256次元に射影、SimGCD[59]では出力768次元を使用。HypCDでもそれぞれに合わせて双曲空間にマッピングします。
  • 最適化: バックボーンの一部と射影ヘッド\rho_r(非パラメトリック法の出力層)についてはSGDオプティマイザ(初期学習率0.1, コサインスケジュールで0.001まで減衰)で学習。一方、双曲空間のFFN(HypFFN)についてはRiemannian Adamオプティマイザ【4】(学習率0.01一定)を用いて学習しています。全モデル200エポック、バッチサイズ128で学習。
  • ハイパーパラメータ: 双曲空間の曲率パラメータc細粒度データセットでは0.05、汎用データセットでは0.01に設定しています。これは検証実験での最適値に基づく選択です(後述)。損失の重み\lambda_{b}^{H}(教師ありvs自己教師)は0.35に設定し、距離損失の比重\alpha_dは学習初期0から徐々に1.0に線形増加させています。これは当初は角度に重点を置き、徐々に距離項を強めるスケジュールで、安定した学習を促す狙いです。

4.2 定量的な比較結果

alt text
alt text

主要ベンチマークにおけるHypCD適用の有効性は、表1および図4にまとめられています。ここではDINOバックボーンを用いた場合の結果を中心に議論します(DINOv2の場合も全体傾向は同じで、さらに精度が向上します)。

SSB(細粒度3データセット)の結果: 左図4は、3つのベースライン(GCD, SimGCD, SelEx)それぞれにHypCDを適用した場合(Hyp-GCD, Hyp-SimGCD, Hyp-SelEx)の総合精度(All ACC)を比較したものです。全データセット平均で見ると、いずれの手法でもHypCD導入によりACCが少なくとも+6%向上しており(図4左)、双曲空間への拡張が有効であることがわかります。特に既知クラスと未知クラスが混在する難度の高いCUB(鳥)データセットでは、Hyp-SelExが79.8%(DINO使用時)のAll精度を記録し、従来SOTAを大きく上回りました。DINOv2使用時には同条件で90.7%に達し、ほぼ完璧に近い分類性能を示しています。またStanford-Carsでは、非パラメトリックなHyp-GCD手法がベースラインのGCDをAllで+11.8%、Oldで+13.3%、Newで+15.9%という飛躍的向上を達成しました。この結果、図4右に示される旧クラスと新クラス間の精度差も大幅に縮小しています。例えばSelExでは従来旧クラスの方が13.1ポイント高い精度でしたが、Hyp-SelExではその差が7.2ポイントにまで低減しました(図4右)。これはHypCDにより未知クラスへの知識転移が促進され、既知・未知間でバランスの取れた性能が得られていることを意味します。なお、バックボーンをDINOv2に置き換えると全手法で絶対精度がさらに向上し、例えばHyp-SelExはCUBで旧新ともに約90%に達するなど、データ表現の向上による恩恵も確認できます。

汎用データセット(CIFAR-10/100, ImageNet-100)の結果: これらでは既知・未知の差異が小さくタスク難易度は低めですが、HypCDは依然として安定した改善を示しています。例えばCIFAR-100では、Hyp-SimGCDとHyp-SelExがDINO使用時で82.4%のAll精度を達成し、DINOv2使用時ではHyp-SimGCDが91.5%に達しました。ImageNet-100では、もともと精度上位だったSelExにHypCDを適用したHyp-SelExが全指標(All/Old/New)で最高性能を記録し、ベースライン比最大+3.7%向上しました。以上より、細粒度・汎用を問わず双曲空間アプローチの有効性が示されています。特にクラス数が多く複雑なデータセットほど改善幅が大きい傾向が見られ、これは双曲空間が高い表現容量を持つおかげで、データの細かな階層的差異を捉えきれているためと考えられます。

4.3 ハイパーパラメータの影響

alt text

HypCDにおける主要なハイパーパラメータについて、著者らは追加実験で性能への影響を検証しています。その結果、以下の知見が得られました。

  • 曲率パラメータ c: 双曲空間の曲率を決めるcはタスク性能に大きな影響を与えます。cが大きすぎると双曲空間が平坦化しユークリッドに近づきすぎて性能が低下し、逆に小さすぎると球が極端に鋭敏になり不安定になります。著者らの検証では、細粒度データセットではc=0.05前後、汎用データセットではc=0.01前後が最適であると報告されています。これは実験設定で採用した値(0.05と0.01)とも一致し、タスク難易度やデータ粒度によって適切な曲率が異なることを示唆します。

  • 特徴クリッピング値 r: 特徴ノルムをクリップする閾値rも分類性能に寄与します。文献[23]に倣い、r=1.0, 1.5, 2.3などを比較したところ、**汎用データセットでは$ r=1.0 $、細粒度データセットでは $ r=2.3 $**が最適だったと報告されています。細粒度データは特徴ノルムが大きくなりがちで多少緩くクリップした方が良い、一方で汎用データでは過度なノルム拡大を防ぐため厳しめにクリップする方が良い、という違いが見られます。

  • 損失の重み \alpha_d: ** 距離損失と角度損失の比重 \alpha_d は、データセットにより最適値が異なりました。細粒度データ(CUBなど)では\alpha_d \approx 0.5(距離と角度半々)が良く、一方で汎用データ(CIFAR-100など)では\alpha_d \approx 1.0**(距離項主体)が良かったとされています。細粒度では細かな類似度を角度情報で補完する必要があり、汎用ではクラス間距離を離すことがより重要という解釈ができます。この結果は、訓練初期は\alpha_dを小さくし徐々に大きくするスケジュール戦略とも整合しており、まず角度で粗いクラスタ形成を助け、その後距離で全体構造を引き締めるというHypCDの設計は合理的と言えます。

4.4 定性的な比較・分析

alt text

定量指標での優位性に加え、HypCDは特徴空間におけるクラスタ構造の質も改善しています。その証拠として、著者らはStanford-Carsデータセット上でt-SNE可視化を比較しています(図5)。左はベースラインSimGCDの学習後特徴を可視化したもので、同じクラスの点がバラバラに散らばり他クラスと混ざってしまっている様子が見られます。一方右のHyp-SimGCDでは、同一クラスの点がより密集しクラス内コンパクト性の向上)かつ異なるクラス間の距離が離れてクラス間分離の向上)配置されていることがわかります。特筆すべきは、これらの可視化はバックボーンの元のユークリッド特徴空間で行われているにもかかわらず、HypCDを適用したモデルの方が明確なクラスタを形成している点です。これは、双曲空間で表現学習と分類器学習を行った効果がユークリッド空間にも反映されていることを意味します。すなわち、双曲空間で階層構造を捉えた特徴表現は、たとえ元のユークリッド空間に戻しても優れたクラスタリング構造を保つだけの汎化力を持つということです。この現象はHypCDの効果をより直感的に裏付けるものであり、双曲幾何が潜在的に有する階層構造エンコード能力の高さを示しています。

さらに付録の可視化として、注意マップの比較も示されています。ベースラインGCDとHyp-GCDで、画像中のどの領域にモデルが注意を払っているかをヒートマップで可視化したところ、提案手法では既知・未知に関わらず物体の前景部分に集中した注意を向けているのに対し、ベースラインでは背景に注意が分散しがちであったと報告されています。この結果も、双曲空間での学習が本質的な対象物の特徴を捉えることに寄与していることを示すものです。

5. 結論

本論文では、一般化カテゴリ発見(GCD)において階層構造を捉えうる特徴空間という観点が見過ごされていたことを指摘し、ユークリッドや球面ではなく双曲空間で表現学習を行う枠組みを提案しました。双曲空間は半径方向の体積が指数的に増加する特性により、階層構造を持つデータのモデリングに適しています。提案手法HypCDでは、この双曲幾何の利点を活かし、既存のGCD手法(非パラメトリック・パラメトリック双方)に簡潔に組み込めるフレームワークを実現しました。自己教師あり・教師ありのハイブリッド損失で階層対応の特徴表現を学習し、双曲分類器HypFFNで既知・未知クラスを統一的に扱う本手法は、様々なベンチマークにおいて一貫した性能向上を示し、従来手法を凌駕する最先端結果を達成しました。これらの結果は、カテゴリ発見タスクにおける双曲空間の有効性を強く示すものであり、今後オープンワールド学習分野において新たな方向性を拓くと期待されます。

GitHubで編集を提案

Discussion