📚

2023-24年（上期）のKaggleコンペから学ぶ、NLPコンペの精度の上げ方

2024/07/14に公開

Kaggle

23-24年もKaggleでNLP系のコンペがたくさん開かれています。

このうち、コンペで使えるTipsをまとめてみました。

 23-24年のNLPコンペまとめ24年は上期のコンペまで記載です


コンペ名（略記）
概要
日本語記事



LLM Science Exam（LLM Sci）
LLMが作成した問題をKaggle環境下で動く言語モデルで解くコンペ（分類）

まとめ1, まとめ2



Commonlit2（Commonlit2）
要約文の品質を評価するコンペ（回帰）

4th, まとめ



LLM Detect AI Generated Text（DAIGT）
LLMが作成した文と人間が作成した文とを見分けるコンペ（分類）
14th


LLM Prompt Recovery（Prompt Recovery）
LLMによる文書変換に使われたプロンプトを復元するコンペ（文作成）

12th, まとめ記事



PII Detect（PIIDD）
文中に埋め込まれた個人情報を検出するコンペ（固有表現抽出）
まとめ


Automated Essay Scoring（AES2）
文の品質を評価するコンペ（回帰）
まとめ

LLM関係のコンペがかなり多かったですね。

 ベースラインノートブック最近はほとんどのコンペがHuggingfaceのTrainerを使って学習が行われます（テーブルデータにおけるscikit-learnのような立ち位置です）。ChrisのNotebookは非常にシンプルにまとまっているのでぜひ参考にしてください。
分類（＋RAG）
https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1
回帰、分類
https://www.kaggle.com/code/cdeotte/deberta-v3-small-starter-cv-0-820-lb-0-800
固有表現抽出
https://www.kaggle.com/code/emiz6413/deberta-v3-single-model-lb-0-966

 NLP・精度上昇で検討すること
 データを増やすLLMによるデータ生成 + ラベリング（CommonLit2 1st, DAIGT 1st, LLM Sci Exam 5th, PIIDD 1st）
LLMによるデータ生成は必ずしも効果があるとは限らない
データ生成方法も現状はベストプラクティスはない
Mistral, Mixtral系列でデータ生成がよさそうな感じはする
なお、LLMがラベル付けできないタスクでは厳しい印象です

TTA（テストデータ水増し）
選択肢のABCDEをBCDEAと変える（LLM Sci Exam 5th）
RAGの1番目-6番目を与えた場合、RAGの7-11番を与えた場合でTTA（LLM Sci Exam 13th）

再翻訳
英独の再翻訳（CommonLit2 11st）


 Tokenizer，データ処理改行（"\n"）をトークンに追加, [BR]などの文字に置換
DeBERTaがデフォルトで改行を無視してしまうため、トークンとして追加することでDeBERTaが改行の意味を考えてくれるようになる（PIIDD 3rd, AES2 1st）
RandomMask
過学習を抑える効果があるようです

 機械学習モデルの変更ほとんどのコンペでDeBERTa-v3が使われる（CommonLit2 1st, DAIGT 1st, PIIID 1st, AES2 1st）。
DeBERTa-v3-largeが基本だが、DeBERTa-v3-baseもアンサンブルなら検討可能
他使われているのはDeBERTa-v2, Longformerなど
近年は文章全体を入力とすることが多く、Relative position（相対位置）を使用するDeBERTaがとても便利
コンペによってはLLMを使っている例もある
Llama-2-7b/13b, Mistral 7b が多い（LLM Sci Exam 1st, DAIGT 1st, Prompt Recovery まとめ記事）
コンペによってはtf-idfで精度上昇の可能性もあり（AES2 baseline）
tf-idfはPrivateでスコアを下げることが多い印象はある

 モデルや学習時の工夫Pooling, Headerの変更（FB3 1st, Commonlit2 2nd）
PoolingやHeaderの変更については以下の記事にもわかりやすく書いてあるのでご参照ください

https://www.ai-shift.co.jp/techblog/2145
Modelの継続事前学習（MLM）（DAIGT 1st）
ドメインが特殊なときに有効な印象がある。Kaggle周りだとNBME（医療系のNLPコンペ）ではMLMが上位への鍵の1つのようでした。
https://blog.recruit.co.jp/data/articles/kaggle-nbme-score-clinical-patient-notes/
学習時にノイズを足す（AWP）
AI Shiftさんの記事やカレーちゃんさんの記事に詳しく書かれています。今も有効な手段であることは間違いないですが、23-24年のコンペではAWPが効かないコンペもいくつか見られる印象があります。
https://www.ai-shift.co.jp/techblog/2985
https://www.docswell.com/s/currypurin/Z8L7L5-2022-05-23-081854
学習時のロス関数を変更
HuggingfaceのTrainerは、回帰はMSELossが、分類ではCrossEntropyLossが使われます。
このロス関数を変えることで、学習を安定させたり精度向上につなげることがあります。
過去コンペの予測値とのロスも合わせた補助損失（Aux Loss; CommonLit 2nd）
回帰問題におけるSmoothL1 Loss, RMSE Loss, RankLossの組み合わせ（Commonlit2 11th）
DiscussionではFocal loss（簡単に分類できるサンプルはロスを小さくする）もよく言及されています（23年ではないですが、NBME 4thなど）。
Huggingface TrainerでLoss functionを書き換えるのは以下の記事が参考になります。
https://dev.classmethod.jp/articles/huggingface-usage-custom-loss-func/
問題を違う形で捉える
特に最上位の解法では、問題を違う形で捉えるということが多く行われています。
簡単なところでは、Targetの値が1,2,3,4,5,6のいずれかの場合に回帰でなく分類問題として解くというものがあります。（AES2 baseline）
分類 → ランキング問題（DAIGT 1st）
知識蒸留（PIIDD 1st）
学習データセットAで学習したものを教師とし、学習データセットBにおける学習に利用したとのこと

 データ分割Stratified K-Fold, K-Foldなどなど。
データの分割については通常のテーブルコンペとそこまで変わらない印象
データ数足りない時はFull Trainも検討（Commonlit2 4th）
https://speakerdeck.com/chumajin/model-ensemblenoke-shi-hua

 パラメーター回帰問題においてはモデルのDropoutを0とすることがほぼ定石
https://www.kaggle.com/code/cdeotte/deberta-v3-small-starter-cv-0-820-lb-0-800
https://www.ai-shift.co.jp/techblog/2170
学習のパラメーターはそこまで大きな影響は与えなさそう
公開ノートブックを元に修正していけばよいと思いますが、よくいじられているパラメーターは以下のあたり
"learning_rate": [1e-6, 1e-5, 2e-5]
"lr_scheduler_type": ["cosine", "linear"]
"warmup_ratio": [0, 0.01, 0.1]
"weight_decay": [0, 0.01]

 アンサンブル上記までの組み合わせ

 後処理DeBERTaの予測値、tf-idf、文章の統計情報を組み合わせ、LightGBMなどで予測（AES2 baseline）
2-stage予測と呼ばれるもの
過去コンペ（Feedback 3; FB3）で作成された予測値を利用
Feedback 3は生徒の書いた文章を複数の観点からの評価値を予測するコンペです。
https://www.kaggle.com/competitions/feedback-prize-english-language-learning
日本語だと以下のブログがわかりやすかったです。
https://moritake04.hatenablog.com/entry/2022/12/02/185835
具体的な活用方法としては以下
DeBERTaでの予測やロスにFB3の予測値も追加（CommonLit2 2nd）
2-stageで予測する際にFB3の予測値も特徴量として追加（AES 7th）
ルールベースの後処理
明らかに間違いと思われるものの除外や、特定のルール下において改行を回答に追加する...など（PIIDD 2nd）

 銀圏と金圏の差分となったテクニック銀圏と金圏の差分になったであろうテクニック（私見）をまとめます。銀と金の差分は色々あって法則性がないのがKaggleの難しいところであり、よいところですね。
・公開Wikipediaデータの処理ミスを修正（LLM Sci）
・要約文＋原文を入力するが、要約文のPoolingのみ使用（モデリング；Commonlit2）
・データ量を増やしてDeBERTaで殴る（公開NBではtf-idf使ってる人が多かった；DAIGT）
・ルールベース後処理（PIIDD）
・公開データ/新規データの違いに着目（AES2）

 学習時のメモリ節約精度とは直接関係ありませんが、Kaggleのノートブック上での学習のためにメモリを節約することが求められます。基本的にはChrisのNotebookを参考にしてください。
https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1
TrainingArgumentsで設定できるもの
fp16=True

per_device_train_batch_size=1にしてgradient_accumlation_steps=4などにする

gradient_checkpointing=True (メモリ節約できるが、学習が2割ほど遅くなる)
モデルの層、EmbeddingをFreezeする
PEFTの利用
PEFTは精度が下がる可能性有り（逆にアンサンブルに使われる例もあり）
8bit-adam
あまりKaggleで使われる例は見ないですが、ほぼ精度に影響なくメモリ使用量を減らせます
https://huggingface.co/docs/transformers/ja/perf_train_gpu_one

コンペ名（略記）	概要	日本語記事
LLM Science Exam（LLM Sci）	LLMが作成した問題をKaggle環境下で動く言語モデルで解くコンペ（分類）	まとめ1, まとめ2
Commonlit2（Commonlit2）	要約文の品質を評価するコンペ（回帰）	4th, まとめ
LLM Detect AI Generated Text（DAIGT）	LLMが作成した文と人間が作成した文とを見分けるコンペ（分類）	14th
LLM Prompt Recovery（Prompt Recovery）	LLMによる文書変換に使われたプロンプトを復元するコンペ（文作成）	12th, まとめ記事
PII Detect（PIIDD）	文中に埋め込まれた個人情報を検出するコンペ（固有表現抽出）	まとめ
Automated Essay Scoring（AES2）	文の品質を評価するコンペ（回帰）	まとめ