🕌

[論文要約] PT+MAP: 特徴ベクトルの分布を利用した転移学習ベースのFew-Shot学習

2022/03/07に公開

論文

Leveraging the Feature Distribution in Transfer-based Few-Shot Learning

概要

Few-Shot学習手法において、特徴ベクトルの分布を利用した転移学習ベースの手法を提案する。

提案手法の特徴

本手法の特徴は主に以下の2点に集約される。

  1. 特徴ベクトルの分布をGaussianに近づくようにmappingする(PT; Power Transform)
  2. 最適輸送問題[1]からヒントを得たMAP推定アルゴリズムを利用

Inductive v.s. Trunsductive

few-shot学習には以下の2つのタイプがある。

  1. Inductive few-shot: 個々の(ラベルのない)テストサンプル1つのみを利用してラベルを推定する
  2. Transductive few-shot: 複数の(ラベルのない)テストサンプルを利用してラベルを推定する(同時分布を利用)

本手法は2のtrunsductiveな手法である。

問題設定

Few-shot分類タスクにはさまざまな定式化が存在しうる。本論文では以下のように定義する。

  • 訓練セット(base set)には十分な数のサンプルとラベルが与えられている
  • テストセットには少数のラベル付きのサンプルの集合(サポートセット[2])と、ラベルのないサンプルの集合(クエリ集合[3])が与えられる
  • 訓練セットとテストセットは同じクラスを共有しない
  • タスクの目的は、クエリ集合のラベルを予測することである
  • 問題の分類上、以下のような用語を定義する。
    • w-way: w:テストセットにおけるクラス数
    • s-shot: s:1クラスあたりのラベル付されていないサンプル数(クラスあたりのサンプル数は全て同じ想定)

提案モデルのアーキテクチャ

提案モデルのアーキテクチャを図1に示す。
なお、本手法では一般的にバックエンドと呼ばれる、特徴ベクトルを抽出するネットワークについては十分な数の訓練セットで学習した重みをそのまま用いる。従って、サポートセットによって学習されるのはそれ以降の部分である。


図1: 提案モデルのアーキテクチャ

Power Transform

特徴ベクトルの分布からK-meansなどの手法によって新クラスの分類をする手法は既存で存在するが、本手法では特徴ベクトルの分布の非正規性に着目する。すなわち、後続のアルゴリズムの精度をよくするために、元の分布を正規分布に近づけるような変換を施す。
具体的には、Power Transform (PT)と呼ぶ以下のような変換である。

f(\bm{v}) = \begin{cases} \frac{(\bm{v} + \epsilon)^\beta}{\|(\bm{v} + \epsilon)^\beta\|} & \text{if } \beta \neq 0, \\ \frac{\log(\bm{v} + \epsilon)}{\|\log(\bm{v} + \epsilon)\|} & \text{otherwise} \end{cases}

\beta はハイパーパラメータであり、varidation setに対してチューニングすることで設定する。本論文では\beta=0.5とした。

MAP推定

本手法では最適輸送問題[1:1]で使われるShinkhorn アルゴリズム[4]からヒントを得たアルゴリズムによってクラス中心のMAP推定をしているという。
ここは筆者の前提知識では理解できなかったので、詳細は原論文及び[4:1]を参照のこと。


図2: MAP推定のアルゴリズム

実験結果、アブレーション

miniImageNet, CUB, CIFAR-FS, tieredImageNetにおいて提案手法はSOTAを達成した。
また、アブレーションとして、

  1. クラス中心の推定では、提案手法であるMAP推定がナイーブなK-meansを2-6%上回る精度を実現した。
  2. 提案手法であるPower Transformを適用することで、6-7%の精度ゲインを得た

所感

  • 本手法はいわゆる特徴空間ベースの手法の1つである。特徴ベクトルの分布を直接用いるのでなく、正規分布に近づけて統計的に扱いやすい分布に変換しているのが特徴。
  • MAP推定では、理論的な正当性が高い手法を用いている。一方で、背景知識を理解しないと数理的なイメージがしにくい。
  • transductiveな手法では、ラベル付されていないデータを使って推論をするという意味でpseudo labelと似ている。
脚注
  1. Optimal Transport problem ↩︎ ↩︎

  2. support set ↩︎

  3. query set ↩︎

  4. Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances ↩︎ ↩︎

GitHubで編集を提案

Discussion