[論文要約] Online Label Smoothing
論文
Delving Deep into Label Smoothing
概要
本論文では、目的クラス以外の確率分布を考慮した新たなlabel smoothing手法を提案する。
通常のLabel Smoothing(LS)は目的クラス以外の確率分布を公平に扱うため、クラス間の類似を考慮しない。これに対し、提案手法(OLS)はモデルの予測結果をソフトラベルとして用いるため、ラベル間の内的な関連を適切に表現することが期待できる(図1)。
図1: 提案手法と既存手法におけるラベルの確率分布の比較
知識蒸留手法との関係
提案手法は「1epoch前のモデル」を教師とする知識蒸留手法と捉えることもできる。この文脈では、教師モデルの重みを必要としないこと、及び、forward pathの計算が1回ですむことが提案手法のメリットである。
Self-Ensembleとの関係
提案手法は自分自身の1つ前のepochの予測結果と現在のepochの予測結果を混ぜ合わせる、という意味では、self-ensembleと似ている。self-ensembleと提案手法との違いは、前者が学習ずみの予測結果を混ぜ合わせるのに対し、後者では学習ずみの予測結果を学習過程に反映するという点である。
Adversarial Attackに対してロバスト
また、提案手法は予測確率の分布をコンパクトにする効果もある(図2)。これは、「1epoch前のモデルの予測分布」を全サンプルごとに保持するのでなく、クラスごとの分布のサンプル平均を保持しているためである。すなわち、提案手法のソフトラベルによる正則化は確率分布をクラスの中心に寄せる効果がある。
これため、提案手法は正則化を目的として提示されたものでありながら、adversarial attack(AA)にも強い性質を持つ(AAは判別の難しい識別境界付近に寄せるような変異をサンプルに対して加えるが、提案手法はサンプルを識別境界から離す効果があるため、この変異の影響を受けにくい)。
図2: 提案手法と既存手法における確率分布のt-SNEプロットの比較
Discussion