Closed10
NAACL 2021 Longdoc Tutorial 個人的まとめ
Part 1. Intro & Overview of tasks
- 500-1000 トークンより長いような Long Document について考える
- 典型的なタスク
- 文書分類
- Multihop QA
問題点
- 長いドキュメントや複数のドキュメントにアノテーションをつけるのは難しいので、普通のデータセットは短文でできてしまう
- 実世界では無関係な入力ドキュメントを無視するようなモデルが必要になる
- 一般的なアルゴリズムは短いドキュメントにしか対応していない
- RNN/LSTM のような系列モデルは長いドキュメントだと遅い
- Transformer の self-attention は
: 長いドキュメントに対応していないO(L^2) - BERT などのトークン長制約は 512
使えるデータセットの紹介
- Document classification
- Single document QA
- Information Extraction
- Coreference
- Multihop QA
- Summarization
- Long sequence language modeling
Part 2. Graph based methods
- シンプルな解決策
- 長いドキュメントをいくつかの部分に分割し、それぞれの部分に対してモデルを入れ、最終的に結果を集める
- これは実際に Strong Baseline である
- しかしながら、long-range dependencies がテキストにある場合、それを考慮できない
- Hierarchical Modeling
- 単語-文-段落 の階層を利用する
- 単語レベルの LSTM/Attention レイヤの出力を、文・段落レベルの LSTM/Attention レイヤの入力としてそのまま受け渡すようなイメージ
- ドキュメントのある部分の representation を他の部分の要素をもとに update するために、Graph-based methods が使われる?
Part 3. Long sequence transformers
- Transformer を長いドキュメントに対応させようとする研究はたくさんある
Part 4. Pretraining and finetuning
- 長いドキュメントに対応した改良版 Transformer モデルを提案するのはいいものの、それを Pre-training するのには多量なコストがかかる
- そこで、既にある通常ドキュメント用の Transformer モデルの weight を使って初期化することで、コストをかけずに効果的なパフォーマンスを出すことが考えられる(スクラッチで学習するよりもモデルの収束が非常に速くなる)
このスクラップは2ヶ月前にクローズされました