🍣

【要約】SimCSE: Simple Contrastive Learning of Sentence Embeddings

2022/11/20に公開

機械学習

tech

論文URL
- https://arxiv.org/pdf/2104.08821.pdf
問題の背景と目的
文章の汎用的な意味を埋め込み表現として得るための手法は数多く提案されている。従来の手法としては、word2vecやGlove、Bertによるsentence-embeddingなどがある。一方で、画像の埋め込み表現を得るための有効な手法として、対照学習の研究が盛んである。対照学習においては、アンカーから正例を生成する方法が重要であり、Data Augumentationの手法が使用されている。しかし、文章においては、データの離散的な性質から、Data Augumentationの手法が画像より限られてしまい、良い性質をもった正例を生成することが難しい。
提案手法
この研究では、ランダムにマスクをサンプリングするDrop Outは、文章におけるData Augumentationとして、対照学習の正例の生成に役立つことを示す。Drop Outを用いた対照学習のフレームワークを提案している。また、「教師あり学習」として、ラベルデータ(NLI dataset)を用いた学習手法も提案している。
前者では、BERTモデルを基礎に、そのDrop Out層のマスクをランダムにサンプルすることで、同じ文章 $x_i$ から異なる2つの埋め込み表現 $z_i, z_i^`$ を生成している。対照学習の枠組み、損失関数としては、画像分野におけるChenらの手法と同じである。
後者では、Drop Outによる正例の生成をそのままに、文章 $x$ に対して、その文章と同じ意味か、異なる意味か、中立的かというラベルがついたデータセットを使って学習させる。事前実験の結果、複数のデータセットを検証した事前実験の結果、NLI datasetがより文章の意味をうまく表現する埋め込み表現が得られることがわかった。
有効性の検証方法
あるモデルから得られた埋め込み表現が文書の意味を学習しているということは、STS(Semantic Text Similairty)のテストによって判定することができる。具体的には、各文書の埋め込み表現におけるcosine類似度と、ground truthとして得られる評価値との間に強い相関がある場合に、その埋め込み表現は意味を反映しているといえる。提案手法では、既存手法((Ro)BERT, Glove, Universal Sentence Encoder)よりも高い相関を得ることができた。
また、対照学習による埋め込み表現の良さを図るのに、２つの指標が提案されている。AliginmentとUniformityである。Aliginmentは、どれだけ正例同士のペアの距離が近いか？を表現している。また、Uniformityは、埋め込み表現がどれだけ空間上に一様に分布しているかをしめしている。提案手法ではどちらの値も従来より良い結果をえることができた。

Discussion