Open2024/04/03にコメント追加2

RAFT（Retrieval Augmented Fine Tuning ）

LLM

RAG

kun432

論文

https://arxiv.org/abs/2403.10131

そのレポジトリ

kun432

Claude3まとめ

どんなもの？

新しい学習方法「RAFT」を提案しています。

RAFTはRetrieval Augmented Fine Tuningの略です。

事前に学習済みの言語モデルを、特定の分野での質問応答タスクに適応させるための方法です。

RAFTは、言語モデルが学習する際に、質問に関連しない文書を無視する能力を向上させます。

学習時に、関連のない文書（distractor documents）を意図的に混ぜることで、モデルは重要な情報だけに注目することを学びます。

RAFTは、質問に対する回答を「思考の連鎖（Chain-of-thought）」という形式で生成するようモデルを訓練します。

これにより、モデルは単に答えを出すだけでなく、答えに至るまでの推論のプロセスを示すことができるようになります。

推論のプロセスを明示することで、モデルの思考能力が強化されます。

つまり、RAFTは、言語モデルが特定の分野の質問応答タスクで高い性能を発揮できるよう、関連しない情報を無視し、思考の過程を明確に示すことを学習させる新しい学習方法だと言えます。

先行研究を比べてどこがすごい？

これまでの研究では、大きく分けて2つのアプローチがありました。

In-context learning（文脈内学習）を使ったRAG（Retrieval Augmented Generation）

このアプローチは、特定の分野に特化した学習の機会を十分に活用できていませんでした。

また、テストの際に使われる文書を事前に利用できないという問題もありました。

Supervised fine-tuning（教師あり微調整）

このアプローチでは、文書を活用した学習はできますが、テスト時のRAGのことは考慮されていませんでした。

RAFTは、この2つのアプローチのいいとこ取りをしています。

Fine-tuning（微調整）とRAG（Retrieval Augmented Generation）を組み合わせることで、特定の分野の知識を習得しつつ、RAGの性能も向上させることができます。

つまり、RAFTは特定の分野に特化した質問応答システムを作るのにとても適した方法だと言えます。

これまでの研究では、特定の分野への適応と、テスト時の文書を使った質問応答の両立が難しいという問題がありました。RAFTは、この2つを同時に実現できる点で、先行研究よりも優れていると言えます。

技術や手法の肝はどこ？

RAFTの学習データの作り方が肝になっています。

学習データの1つ1つは、質問（Q）、文書（D*）、そして「思考の連鎖」形式の回答（A*）からできています。

学習データの一部（P%）には、正解の文書（oracle document）と、関連のない文書（distractor documents）が含まれています。

残りの学習データ（1-P%）には、正解の文書は含まれておらず、関連のない文書だけが含まれています。

このようにデータを作ることで、モデルは以下のようなことを学習します。

関連する文書から答えを導き出すこと

関連のない文書を無視すること

つまり、RAFTの肝は、学習データに意図的に関連のない文書を混ぜることで、モデルに「重要な情報を見つけ出し、関連のない情報を無視する」ことを学習させる点にあります。これにより、モデルは実際の質問応答タスクにおいて、与えられた多くの文書の中から重要な情報を適切に選び出せるようになるのです。

どうやって有効だと検証した？

RAFTの有効性は、主に3つのデータセットを使って検証されました。

PubMed: 医学研究に関する質問応答データセット

HotpotQA: Wikipediaを基にした質問応答データセット

Gorilla datasets: プログラミングに関する質問応答データセット

これらのデータセットでRAFTを評価したところ、既存の手法と比べてRAFTが優れた性能を示しました。

つまり、RAFTは医学、一般知識、プログラミングなど、幅広い分野の質問応答タスクで効果的だということが分かりました。

また、「思考の連鎖」形式で回答を生成することが、モデルの性能向上に重要だということも確認されました。

これは、単に答えを出すだけでなく、答えに至るまでの推論のプロセスを示すことが、モデルの理解力を深めるのに役立つということを意味しています。

さらに、学習時とテスト時の関連のない文書（distractor documents）の数が、モデルの性能にどのように影響するかも調べられました。

その結果、学習時に一定の割合で関連のない文書を含めることが、モデルの性能向上に効果的だということが分かりました。

以上のように、RAFTは複数の異なる分野のデータセットで評価され、既存の手法よりも優れた性能を示しました。また、「思考の連鎖」形式の回答生成や、関連のない文書の適切な利用が、RAFTの性能向上に重要だということも明らかになりました。

議論はある？

RAFTは、実際の場面で役立つ可能性が高いと考えられています。

一般的な質問応答システムとは異なり、RAFTは特定の分野に特化した知識を使って質問に答えることができます。

これは、医療や法律など、専門的な知識が必要とされる分野での応用に役立つかもしれません。

また、RAFTは、大規模な言語モデルを使わなくても、優れた性能を発揮できる可能性があります。

実験では、小規模なモデルにRAFTを適用することで、大規模な汎用言語モデルに匹敵する性能を達成できました。

これは、専門的な分野に特化した質問応答システムを、比較的小さなコストで構築できる可能性を示唆しています。

つまり、RAFTは実社会での応用可能性が高く、特に専門的な知識が必要とされる分野で役立つ可能性があります。また、大規模な言語モデルを使わなくても、RAFTを適用することで高い性能を発揮できる可能性も示されました。ただし、これらはまだ議論の段階であり、実際の応用に向けてはさらなる研究が必要だと考えられます。

次に読むべき論文は？

RAGの性能向上に関する研究

"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)

URL: https://arxiv.org/abs/2005.11401

"Improving Language Models by Retrieving from Trillions of Tokens" (Borgeaud et al., 2022)

URL: https://arxiv.org/abs/2112.04426

ドメイン特化型タスクへのLLM適用に関する研究

"LIMA: Less Is More for Alignment" (Zhou et al., 2023)

URL: https://arxiv.org/abs/2305.11206

"Large Language Models Can Be Easily Distracted by Irrelevant Context" (Shi et al., 2023)

URL: https://arxiv.org/abs/2302.00093

ログインするとコメントできます