【RAGが逆効果な時も!?】 When Retrieval Hurts in Medical Question Answering
今回はAISNS2025という国際学会にて発表された医療RAGに関する論文を紹介します。
[文献情報]
- タイトル:When Retrieval Hurts: A Critical Analysis of RAG in Medical Question Answering
- 論文リンク:https://dl.acm.org/doi/10.1145/3797161.3797211
- 本記事内の図は上記文献から引用しています。
この文献では、シンプルな医療RAGの設定で、RAGが精度低下をもたらすこともあるという結果を報告しています。
手法・実験設定ともにとてもシンプルです。
Retrival手法
まずRAGの「R」の部分、Retrievalの方法についてです。
定番のBM25, dense, それらをRRFで融合したhybridの3通りが採用されています。
0. Pure LLM(No-RAG)
ベースラインとしてRAGを使わない素のLLMの性能を測ります。
1. BM25-RAG
BM25は標準的な検索アルゴリズムです。単語の出現頻度に基づいた文章の順位付けを用いています。このようなRetrieverは'lexical search'と呼ばれることもあります。

2. Dense-RAG
Dense retrieverというのは、例えばBERTのような言語埋め込みモデルでencodeをした上で、それらの類似度(主にはcosine similarity)を用いた検索手法を指します。'semantic search'と呼ばれることもあります。
本実験では
- MiniLM-L6-v2 (384次元)
- FAISS inner product
- L2-normalized vectors
- cosine similarity
を利用しています。
3. Hybrid-RAG
上記1,2の組み合わせを一般にHybrid retrivalと呼びます。特に有名なのが本実験でも用いられているReciprocal Rank Fusion (RRF)という2009年に提案された方法です。

RRFの特筆すべき点は、retrievalスコアそのものの値は捨象し順位(rank)の情報のみを使っていることです。この点は前処理/スケーリングやロバスト性の観点から長所でもあり、情報欠落の観点から短所ともなりえると言えると思います。
ちなみにretrieverの種類(式でいう
コーパス
医療RAGの分野ではMedRAGというフレームワークが存在します。
これに従い18のソースから集められた125,847の医療関係文書(教科書の文章)をRAGで参照する知識ベースとして採用しました。
解くタスクと評価指標
RAGの「G」の部分、LLMでの生成部分です。
ここではUSMLE-MedQAという医療LLM評価の最も定番なベンチマークが利用されています。これは米国医師国家試験を基に作成された多肢選択式の問題(主には4択)です。
評価指標としてはAccuracy(正答率, %)を用いています。
実験結果

ご覧のように、Table 1ではPureLLMが最も精度が良い、すなわちRAGの採用は逆効果であったという結果が示されています。8BサイズのLLMでMedQAの正答率が約6割というのは体感とも一致しますが、この水準を劇的に上げるにはやはりスタンダードなRAGでは歯が立ちません。
また、RAG内のretrieval scoreの大小は一見すると自信の大小っぽく解釈できそうなのですが、分析してみたところそのような傾向が見られるとは言えないという結論になっています。RAGもあまり当てにできないようです...
今回の実験は1種類のモデル、1種類のタスクでのみしか評価していないため強い結論を断言することは難しい(Limitationsとしても記載あり)です。ただ、近年はモデルが十分に賢くなったことも関係するのか、「RAGでの精度向上はtrivial、ないしはノイズとなってむしろ悪化することすらある」という感覚を裏付ける結果報告と言えます。
また、Qwen-Plusという非オープンモデルでも同様の結果が確認されるとの記載もあり、モデルサイズによらず起きえる現象であるようです。
特に医師国家試験のような問題では、必ずしもクエリ(質問文や選択肢)と部分一致 or 文章類似度が高い 文章が解答の役に立つとは限らなそうです。そのため近年はこの分野ではreasoningの研究が盛んに行われています。
まとめ
RAGの手法や設計とタスクの組み合わせによっては、性能が改善しないこともあるという事例を紹介しました。定番でよく知られる単純な手法を愚直に入れても効果が薄かったり逆効果だったりする例として参考になります。
実用的にRAGを活用したい場合は、適切なタスクの選定や、その導入恩恵が明確に出るくらい高度なアルゴリズムや工夫を取り入れる必要性が伺えます。
さらなる工夫の例としては、
などが有名どころでしょうか。
医療Q&Aの領域では近年はReasoningが重視されています。
特に最後に示した文献でも扱われる「multi-hop」とは、AIが1つの情報源だけではなく複数の知識や事実などを論理的に結び付け(ホップし)、複雑な推論を行うプロセスであり、医療AIの実用化に向けても重要なトピックであることは明らかでしょう。
おわりに
EQUESでは「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。
2024〜2025にかけて、EQUESでは現在経産省・NEDO「GENIAC」の採択事業者として薬学分野・製薬業務に特化したLLMの開発に挑戦しました。現在、社会実装も推し進めています。この領域にご興味ある方のご連絡をお待ちしています。詳しい内容については以下を是非ご覧ください。
Discussion