Closed10

NAACL 2021 Longdoc Tutorial 個人的まとめ

Kaito SugimotoKaito Sugimoto

Part 1. Intro & Overview of tasks

  • 500-1000 トークンより長いような Long Document について考える
  • 典型的なタスク
    • 文書分類
    • Multihop QA
Kaito SugimotoKaito Sugimoto

問題点

  • 長いドキュメントや複数のドキュメントにアノテーションをつけるのは難しいので、普通のデータセットは短文でできてしまう
  • 実世界では無関係な入力ドキュメントを無視するようなモデルが必要になる
  • 一般的なアルゴリズムは短いドキュメントにしか対応していない
    • RNN/LSTM のような系列モデルは長いドキュメントだと遅い
    • Transformer の self-attention は O(L^2): 長いドキュメントに対応していない
      • BERT などのトークン長制約は 512
Kaito SugimotoKaito Sugimoto

Part 2. Graph based methods

  • シンプルな解決策
    • 長いドキュメントをいくつかの部分に分割し、それぞれの部分に対してモデルを入れ、最終的に結果を集める
    • これは実際に Strong Baseline である
    • しかしながら、long-range dependencies がテキストにある場合、それを考慮できない
Kaito SugimotoKaito Sugimoto
  • Hierarchical Modeling
    • 単語-文-段落 の階層を利用する
    • 単語レベルの LSTM/Attention レイヤの出力を、文・段落レベルの LSTM/Attention レイヤの入力としてそのまま受け渡すようなイメージ

Kaito SugimotoKaito Sugimoto
  • ドキュメントのある部分の representation を他の部分の要素をもとに update するために、Graph-based methods が使われる?
Kaito SugimotoKaito Sugimoto

Part 3. Long sequence transformers

  • Transformer を長いドキュメントに対応させようとする研究はたくさんある

Kaito SugimotoKaito Sugimoto

Part 4. Pretraining and finetuning

  • 長いドキュメントに対応した改良版 Transformer モデルを提案するのはいいものの、それを Pre-training するのには多量なコストがかかる
  • そこで、既にある通常ドキュメント用の Transformer モデルの weight を使って初期化することで、コストをかけずに効果的なパフォーマンスを出すことが考えられる(スクラッチで学習するよりもモデルの収束が非常に速くなる)
このスクラップは2ヶ月前にクローズされました