📏

metric leraning のバッチ活用具合をグラム行列の視点から可視化する

2020/12/14に公開

Metric learning

tech

この記事の目的は？

metric learning に興味のある方に、既存手法が「どれくらいバッチを活用できているか」をグラム行列の視点から可視化する方法を紹介します。

contrastive loss や triplet loss より N-pair loss の方がバッチ内の情報を活用できることはご存知かと思いますが、そのようなことを直感的に理解するための方法を紹介します。

グラム行列とは

一言で言うなら、 内積の行列 です。

以下のような特徴量 $\bm{x}_i \in \mathbb{R}^d$ を並べた $d \times B$ 行列があるとします。この行列を、この記事ではミニバッチとみなします。

X = [\bm{x}_1, \bm{x}_2, \dots, \bm{x}_B]

グラム行列とは、以下の $B \times B$ 行列のことです。

X^TX = \left[ \begin{array}{ccc} \bm{x}_1^T\bm{x}_1 & \bm{x}_1^T\bm{x}_2 & \dots & \bm{x}_1^T\bm{x}_B\\ \bm{x}_2^T\bm{x}_1 & \bm{x}_2^T\bm{x}_2 & \dots & \bm{x}_2^T\bm{x}_B\\ \vdots & \vdots & \ddots & \vdots\\ \bm{x}_B^T\bm{x}_1 & \bm{x}_B^T\bm{x}_2 & \dots & \bm{x}_B^T\bm{x}_B\\ \end{array} \right]

各要素は、各特徴量の組の内積になります。

内積ではなくユークリッド距離を要素にした行列でも、これから紹介する方法の本質は変わらないので、以降、簡単のため、すべて内積で説明します。

contrastive loss

まず、 contrastive loss のバッチ活用具合を可視化します。 contrastive loss の損失関数は以下です^[1]。

\sum_{k=1}^{B_{\rm con}}{ (1-q_{k}) \bm{x}_k^T\bm{x}^\prime_k - q_{k} \bm{x}_k^T\bm{x}^\prime_k }

$B_{\rm con}$ : バッチサイズ
$(\bm{x}_k, \bm{x}^\prime_k)$ : バッチ内で $k$ 番目の、特徴量のペア
$q_k \in \{0, 1\}$ : $k$ 番目のペアがポジティブ（同じクラスなど）なら1、ネガティブ（異なるクラスなど）なら0をとるラベル

上の損失関数を最小化すると、ポジティブペアの内積を大きく、ネガティブペアの内積を小さくします。

contrastive loss のバッチは下図のような構成になります。

起点となる特徴量 $\bm{x}$ を アンカー 、対になる特徴量 $\bm{x}^\prime$ を ポジティブサンプル 、 ネガティブサンプル と呼ぶことにします。

今、このバッチ内の特徴量を1列に並べた新しいバッチを考えます。

ここで、新しいバッチのグラム行列を考えると、損失関数に反映される内積は、下図の赤と青の要素だけであることがわかります。バッチ内から得られるはずの特徴量の組合せ（15通り）のうち、ほんの一部（3通り）しか活用できていません。

赤い要素：ポジティブペアの内積
青い要素：ネガティブペアの内積
太い黒枠：元のバッチでのペアの関係
灰色の要素：考慮しない（対角は自分自身との内積なのと、グラム行列は対称行列なため）

参考

triplet loss

triplet loss の損失関数は以下です^[1:1]。

\sum_{k=1}^{B_{\rm tri}}{ \max{(0, - \bm{x}_{a_k} ^T \bm{x}_{p_k} + \bm{x}_{a_k} ^T \bm{x}_{n_k} + m )} }

$B_{\rm tri}$ : バッチサイズ
$(\bm{x}_{a_k}, \bm{x}_{p_k}, \bm{x}_{n_k})$ : バッチ内で $k$ 番目の、特徴量のトリプレット。左から順にアンカー、ポジティブサンプル、ネガティブサンプル。
$m \in \mathbb{R}_{>0}$ : マージン（ハイパーパラメータ）

上の損失関数を最小化すると、ポジティブの内積がネガティブより $m$ だけ差をつけて大きくなる（ $\bm{x}_{a_k} ^T \bm{x}_{p_k} \geq \bm{x}_{a_k} ^T \bm{x}_{n_k} + m$ を満たす）ように学習します。

triplet loss のバッチは下図のような構成になります。

今、このバッチ内の特徴量を1列に並べた新しいバッチを考えます。

ここで、新しいバッチのグラム行列を考えると、4/15通りしか損失関数に反映されません。

太い黒枠：元のバッチでのトリプレットの関係

さらに、 triplet loss ではポジティブペアとネガティブペアの内積の組合せも考える必要があります。なぜなら、 triplet loss の各項は、ポジティブとネガティブの内積の差がヒンジ関数（ $max(0, \cdot)$ ）によって囲まれているため、ポジティブとネガティブに切り分けられないからです。

下図の右側がポジティブとネガティブの内積の組合せを表しており、白い要素の組合せ、つまり2/4通りしか損失関数に反映されません。