強化学習で効率の良い検索を実現するRAGの手法
導入
こんにちは、株式会社ナレッジセンスの須藤英寿です。
今回は、強化学習とRAGを組み合わせることで検索の性能を大幅に向上させる手法GraphRAG-R1について紹介します。

サマリー
最近のRAGの手法は、必要な情報を一度に集めるのではなく、情報が必要なことが判明するたびに繰り返し検索する手法が主流になっています。
一方で、繰り返しの検索にも問題はあり、「必要な情報を集めきれていないのに検索を終えてしまう(検索不足)」、「必要な情報を十分集めたのに更に検索しようとしてしまう(検索過多)」などの問題を抱えています。
今回紹介するGraphRAG-R1は繰り返し検索の精度に着目した手法です。どんな検索を、どのタイミングで行うべきかを強化学習で学びます。これにより、必要十分なコンテキストを提供できるようになり、既存の手法の性能を最大80%も向上させています。
課題意識
必要十分な情報を収集する
コンテキストエンジニアリングが注目されるようになったことで、LLMが質問に回答するために必要十分な情報を集めてくることがより重要視されています。
RAGを利用するうえでも、コンテキストを過不足なく集めることが求められます。しかし、プロンプトエンジニアリングだけではLLMが検索する方法を把握しきれないため、「無駄な検索」や、「検索の不足」の問題が発生しやすいです。
手法
GraphRAG-R1は強化学習によって、検索機能の使い方を学習します。そのためあらゆる既存のRAGシステムに拡張する形で導入できます。論文中ではHippoRAG 2(人間の脳を模倣することで検索性能を向上させるGraphRAG手法)にこの強化学習を適用して評価を行っています。
GraphRAG-R1で利用されている強化学習は以下の報酬設定がポイントです。
- 正解の文章を見つけることに対しての報酬 (PRA)
- 回答の品質と検索回数を天秤にかけた報酬 (CAF)
この2つの報酬を元に学習することで、既存のRAGシステムを更に賢くすることが出来ます。
評価

既存の手法とGraphRAG-R1(+HippoRAG 2)の性能を比較したグラフです。F1スコアは軒並み上昇し、MuSiQueでは60%以上、 2Wikiでは80%以上の性能向上を実現しています。

続いて、各報酬を除いた際の性能評価です。どちらの報酬も性能向上に影響を及ぼしていますが、たとえばPRAを除くと正解に対する貪欲さを失い呼び出し回数と精度の両方が低下します。一方でCAFを除くと、検索コストを無視しやすくなり、呼び出し回数が増加する上に精度も大きく下がっています。
まとめ
強化学習によって、既存のRAGの性能を向上させるGraphRAG-R1を紹介しました。この手法は名前にGraphRAGとありますが、基本的にはどのRAGの手法についても潜在能力を引き出せる可能性を秘めています。この手法は、突き詰めると「良質な検索クエリの生成」と「検索続行の最適な判断」を可能にするところに価値があります。強化学習をベースとすることで、あらゆるRAGに応用可能で、汎用性が高く優れた手法といえます。既存のRAG手法の性能を更に底上げしたいという場合には、是非利用してみてください。
Discussion