📏

自然言語処理のモデルを metric learning の観点からとらえる

2020/12/09に公開

NLP

Metric learning

tech

この記事の目的は？

自然言語処理または metric learning に興味がある人に、 metric learning と自然言語処理には関係がある ということを伝えることです。

次のセクションから、いくつかの自然言語処理の手法を metric learning の観点からとらえてみます。

Word2Vec

Word2Vec は単語の連続的ベクトル表現を獲得する手法です。様々な手法が提案されてますが、この記事では CBoW (Continuous Bag of Words) と Skip-Gram について考えていきます。

CBoW

CBoW は下図のように文中のターゲットとなる単語 $w_t$ をその周辺語 $w_{t-k}, w_{t-k+1}, \dots , w_{t+k}$ から予測します。

CBoW の学習では以下の最適化問題を解きます。

\min_{U, V}{- \sum_{t=1}^T{\log{\frac{\exp{(\bm{v}_{w_t}^T\bm{c}_t})}{\sum_{w \in W}\exp(\bm{v}_w^T\bm{c}_t)}}}}

\bm{c}_t = \sum_{-k \leq j \leq k, j \neq 0}{\bm{u}_{w_{t+j}}}

$(w_1, w_2, \dots, w_t, \dots, w_T)$ : 文（単語の列）
$\bm{u}_w, \bm{v}_w \in \mathbb{R}^d$ : 単語 $w$ の $d$ 次元特徴量ベクトル
$W$ : 学習に使う単語すべての集合
$U, V \in \mathbb{R}^{d \times |W|}$ : それぞれ単語ベクトル $\bm{u}_w, \bm{v}_w$ を並べた重み行列
$\bm{c}_t$ : 文脈ベクトル。単語 $w_t$ の周辺語 $w_{t+j}$ の特徴量を和によって reduce したもの。周辺語をいくつ使うかは、ウィンドウサイズ $k$ によって決める。

上の式では Softmax Cross Entropy (SCE) を使っているので、 CBoW は単語×文脈の metric learning ととらえられます^[1]。特徴量空間において、 周辺語による文脈ベクトルとターゲットの単語ベクトルを近づけ、ターゲット以外の単語ベクトルは離す よう学習します。下図は metric learning の観点から描きなおしたアーキテクチャです。

Skip-Gram

Skip-Gram は下図のとおり、CBoWとは逆に、ターゲットとなる単語 $w_t$ から周辺語 $w_{t-k}, w_{t-k+1}, \dots, w_{t+k}$ を予測します。

Skip-Gram の学習では以下の最適化問題を解きます。

\min_{U, V}{- \sum_{t=1}^T{\sum_{-k \leq j \leq k, j \neq 0}{\log{\frac{\exp{(\bm{u}_{w_{t+j}}^T\bm{v}_{w_t}})}{\sum_{w \in W}\exp(\bm{u}_w^T\bm{v}_{w_t})}}}}}

上の式より、 Skip-Gram は単語×単語の metric learing ととらえられます。特徴量空間において、 ターゲットの単語ベクトルと周辺語ベクトルを近づけ、周辺語でない単語ベクトルは離す ように学習します。下図は metric learning の観点から描きなおしたアーキテクチャ図です。

以上より、 CBoW と Skip-Gram 、どちらの Word2Vec も metric learning としてとらえられそうです。

参考

RNN による言語モデル

RNN による言語モデル（RNNLM）は、下図のように直前の単語列 $w_1, w_2, \dots, w_t$ から、次の単語 $w_{t+1}$ を予測する手法です。

RNNLM の学習では、以下の最適化問題を解きます。

\min_{U, \Theta, V}{ - \sum_{t=1}^{T-1}{ \log{ \frac{ \exp{( \bm{v}_{w_{t+1}} ^T \bm{c}_t )} }{ \sum_{w \in W}{ \exp{( \bm{v}_w ^T \bm{c}_t )} } } } } }

\bm{c}_t = {\rm RNN}(\bm{u}_{w_t}, \dots, \bm{u}_{w_2}, \bm{u}_{w_1}; \Theta)

$\bm{c}_t$ : 文脈ベクトル。RNN の隠れ層の状態。 $t$ 番目までの単語ベクトルたちを RNN で reduce したもの。
$\Theta$ : RNN のパラメータ

上の式より、CBoWと同様に RNNLM は単語×文脈の metric learning ととらえられます。 CBoW との違いは、文脈を構成する単語と、それらを reduce する関数です。その違いを以下の表にまとめました。

	CBoW	RNNLM
文脈を構成する単語	予測対象の両側の単語いくつか	予測対象よりも前の単語すべて
reduce する関数	sum（学習不可能）	RNN（学習可能）

また、下図は RNNLM を metric learning の観点から描きなおしたものになります。

参考

https://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf

まとめ

既存の自然言語処理のモデルを metric learning の観点からとらえてみることで、自然言語処理処理と metric learning に繋がりがあることを説明しました。

次回は？

推薦や自然言語処理に以外にも metric learning と関係のある分野をまとめます。

脚注

SCE による学習は metric learning とみなせます。同アドベントカレンダーの metric learningとsoftmax cross entropyを比べること自体間違っているで説明しています。 ↩︎