💆‍♀️

[論文要約] Online Label Smoothing

2022/03/14に公開

論文

Delving Deep into Label Smoothing

概要

本論文では、目的クラス以外の確率分布を考慮した新たなlabel smoothing手法を提案する。

通常のLabel Smoothing(LS)は目的クラス以外の確率分布を公平に扱うため、クラス間の類似を考慮しない。これに対し、提案手法(OLS)はモデルの予測結果をソフトラベルとして用いるため、ラベル間の内的な関連を適切に表現することが期待できる(図1)。


図1: 提案手法と既存手法におけるラベルの確率分布の比較

知識蒸留手法との関係

提案手法は「1epoch前のモデル」を教師とする知識蒸留手法と捉えることもできる。この文脈では、教師モデルの重みを必要としないこと、及び、forward pathの計算が1回ですむことが提案手法のメリットである。

Self-Ensembleとの関係

提案手法は自分自身の1つ前のepochの予測結果と現在のepochの予測結果を混ぜ合わせる、という意味では、self-ensembleと似ている。self-ensembleと提案手法との違いは、前者が学習ずみの予測結果を混ぜ合わせるのに対し、後者では学習ずみの予測結果を学習過程に反映するという点である。

Adversarial Attackに対してロバスト

また、提案手法は予測確率の分布をコンパクトにする効果もある(図2)。これは、「1epoch前のモデルの予測分布」を全サンプルごとに保持するのでなく、クラスごとの分布のサンプル平均を保持しているためである。すなわち、提案手法のソフトラベルによる正則化は確率分布をクラスの中心に寄せる効果がある。

これため、提案手法は正則化を目的として提示されたものでありながら、adversarial attack(AA)にも強い性質を持つ(AAは判別の難しい識別境界付近に寄せるような変異をサンプルに対して加えるが、提案手法はサンプルを識別境界から離す効果があるため、この変異の影響を受けにくい)。


図2: 提案手法と既存手法における確率分布のt-SNEプロットの比較

GitHubで編集を提案

Discussion