🧑🏻‍🏫

論文要約: How multilingual is Multilingual BERT?

2022/06/03に公開

機械学習

論文要約

言語モデル

idea

https://arxiv.org/abs/1906.01502

はじめに

109言語のWikipedia記事で事前学習させたBERTモデル(multilingual BERT; M-BERT)がどの程度multilingualな表現を獲得しているかを評価した論文。学習時に対訳ペアなど言語間の関係性を表すラベルは与えていないが、事前学習モデルを使って下位タスクでfine-tuneすると、fine-tune時に入力として与えていない言語についてもかなり高い性能が出ることが示された。

実験結果

1) 異なる言語に対する転移性能

M-BERTの学習では、全ての言語の語彙を包含する一つの大きな言語として訓練データを与えている。従って、各言語の間の関係性に関わる情報は、直接的には与えていないことに注意すべきである。

驚くべきことに、このような方法で事前学習したモデルをNER[1], POS[2]の2つの下位タスクでfine-tuneしたモデルは、fine-tune時に入力として与えていない別の言語に対してもかなり良い性能が出ることが示された（以降、この性質を「転移性能」と表現する）。

[1] Named Entity Recognition
[2] Part of Speech Tagging

この結果からは「言語間で共通する単語を学習しただけ」なのか「言語間で共通する抽象度の高い表現を学習した」のか判然としない。そこで、言語間の単語のoverlapの大きさと性能の関係を調べた（図1）。その結果、M-BERTは単語のoverlapにかかわらず高い転移性能を示した。このことは、M-BERT単に「言語間で共通する単語を学習した」以上のことを学習していることを示唆している。