🧑🏻‍🏫

論文要約: How multilingual is Multilingual BERT?

2022/06/03に公開

https://arxiv.org/abs/1906.01502

はじめに

109言語のWikipedia記事で事前学習させたBERTモデル(multilingual BERT; M-BERT)がどの程度multilingualな表現を獲得しているかを評価した論文。学習時に対訳ペアなど言語間の関係性を表すラベルは与えていないが、事前学習モデルを使って下位タスクでfine-tuneすると、fine-tune時に入力として与えていない言語についてもかなり高い性能が出ることが示された。

実験結果

1) 異なる言語に対する転移性能

M-BERTの学習では、全ての言語の語彙を包含する一つの大きな言語として訓練データを与えている。従って、各言語の間の関係性に関わる情報は、直接的には与えていないことに注意すべきである。

驚くべきことに、このような方法で事前学習したモデルをNER[1], POS[2]の2つの下位タスクでfine-tuneしたモデルは、fine-tune時に入力として与えていない別の言語に対してもかなり良い性能が出ることが示された(以降、この性質を「転移性能」と表現する)。

[1] Named Entity Recognition
[2] Part of Speech Tagging

この結果からは「言語間で共通する単語を学習しただけ」なのか「言語間で共通する抽象度の高い表現を学習した」のか判然としない。そこで、言語間の単語のoverlapの大きさと性能の関係を調べた(図1)。その結果、M-BERTは単語のoverlapにかかわらず高い転移性能を示した。このことは、M-BERT単に「言語間で共通する単語を学習した」以上のことを学習していることを示唆している。

2) 言語類型の近さと転移性能の関係

一方で、英語-日本語などの言語類型が遠い言語間では、英語-ブルガリア語などの類型が近い言語に比べて転移性能が低いこともわかった。このことは、M-BERTは語順に関する体系的な構造はあまり学習できていないことを示唆している。

3) 翻字された文章に対する転移性能

また、翻字を施した言語に対しても貧弱な転移性能を示した。

4) モデルが学習した距離空間の評価

また、M-BERTが学習した距離空間について以下の実験を行った:

  1. 言語1と言語2の文章ペアを入力する
  2. CLS, SEP以外のトークンの出力をpoolし、各言語の文章におけるembeddingを計算する: (v_l1, v_l2)
  3. 全ての文章ペアについてembeddingの平均をとり、言語間の平均距離を計算する
  4. 単語ごとのサンプルに2で計算した平均変位ベクトルを加えることでembeddingを翻訳し、近傍探索で最も近いサンプルを予測訳とする
  5. 予測結果に対してaccuracyを計算する

実験の結果、6-8層目のembeddingに対して70%以上のaccuracyだった。このことは、「単語+翻訳ベクトル=翻訳後の単語」という関係が成り立つことを示しており、M-BERTがword2vecのような距離空間を学習していることを示唆している。

なお、最終レイヤ付近で精度が低下する理由としては、「fine-tune時のタスクに最適化するためには、言語に特化した表現がある程度必要なためだろう」と推測している。

GitHubで編集を提案

Discussion