🏅

RAG技術の現状考察と2025年のトレンド予想

Atsushi Kadowaki

2024/12/24に公開

168

本記事では、現在流行している「RAG」技術について、2024年トレンドの振り返りと、2025年の予想をします。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。

 この記事は何2024年は、RAGが大流行した年でした。この記事では、2024年の技術トレンドを振り返りつつ、2025年のRAGの進展を予想したいと思います。技術的トレンドはもちろん、普段、企業向けにRAGを提供している会社としての、僕の肌感覚も合わせて、お伝えできればと思います。

 本題
 ざっくりサマリー結論として、RAGは、来年も変わらず流行し続けると予想します。
まず来年は、これまで以上に回答精度が向上するのは間違いないです。その理由は、LLMの価格低下トレンドと入力できるコンテキスト増大トレンドが、まだ続くためです。加えて、LLMが「視覚・音声」の入力手段を獲得したこと、ベクトルDB以外のDB活用トレンドも、RAGの精度向上に寄与します。
また、「AIエージェント x RAG」のアーキテクチャや、小さい言語モデル（SLM）のRAG活用についても、加速すると考えています。

 RAGは終焉したのかTwitterでは、「RAGの流行が過ぎた」ような言説を見かけるようになりました。実際、僕の感覚でも、「RAGは、銀の弾丸ではない」ということが、ユーザー企業にも認識されるようになってきたと感じています。
RAGが幻滅されてしまう一番の原因は、「回答精度が低い」ことです。
しかし、2024年の技術進歩を見ていると、RAGパイプラインのあらゆる面で、精度が劇的に改善できる可能性が見えてきています。これを踏まえると、2025年には、RAGの回答精度がまだまだ高まりそうです。そしてこれにより、さらなるユースケースが見つかるので、引き続き、RAGの流行は続くのではないかと考えます。

 1. LLMのコンテキスト増大とコスト低減RAGの精度を考えるときに、LLMの性能はかなり重要なファクターです。
2024年には、LLMに入力できる文字数（いわゆる「コンテキストウィンドウ」）が増え、LLMの利用料金が安くなるという技術トレンドがありました。

 コンテキスト増大入力できる文字数について言えば、Geminiは2M、Qwenは1Mまで拡大しています。前提として、コンテキストウィンドウがいくら長くても、それ単体でRAGを代替できるわけではありません（参考）。しかしそれでも、長くなるほど多くの文章をLLMに渡せるので、回答精度は上がりやすいです。

 コスト低減LLMの利用料金も、値下げトレンドにあります。特に蒸留や枝刈りのような、高価なモデルを安く再現するための手法は、今後も活躍します。Google Brain 創設者であるAndrew氏も「値下げされる前提でサービスを作って問題ない」と言っています。


価格が安くなるということは、たくさんのことを、何度も、LLMに考えさせることが可能になる ということです。これにより、RAGの精度改善の選択肢が大きく広がります。

 2. マルチモーダルRAGの進化2024年には「マルチモーダルRAG」が登場しました。マルチモーダルRAGとは、ファイル内に含まれる画像・図表などについても、RAGで回答できるようにする仕組みです。（実際、弊社RAGサービスでもアップデートしました）
ただ、2025年は、これにとどまらず、より一層のマルチモーダル化が進むと考えます。「マルチモーダルRAG 2.0」という感じです。2025年のRAGでは、音声でLLMに入力したり、常時、画面共有したりという体験が可能になります。これにより、LLMは、より深い「文脈」を獲得します。

 文脈の獲得この「文脈の獲得」は、間違いなくRAGの精度向上に繋がります。 これまでのRAGでは、精度が上がらない大きい原因として「ユーザーの意図が分からない」ということがありました。だからこそ、DIVAのような最新手法では、ユーザーの「雑な質問」を処理することで精度を高めていました。
https://zenn.dev/knowledgesense/articles/abf34c417b079e
これが今後、例えば、「商談に同席して、全ての内容を聞き取っているRAG」「ユーザーの画面に常駐して、エラーに至る過程を見てくれているRAG」のように進化した場合、どうでしょうか。おそらく雑なプロンプトでも、今よりもずっと、回答精度が高いはずです。
文脈がもっと共有され、ユーザーの質問意図がわかりやすくなれば、RAGの回答精度はもっと上がります。例えば、Googleによる「Project Mariner」は、この傾向の「ど真ん中」なサービスと言えるかと思います。

 3. ベクトルDB以外のDB活用トレンド2024年は、ベクトルDB不要のアプローチについての論文が多くでてきました。GraphRAGなどのグラフDBを使った手法や、RDBを使う手法です。
ベクトルDBはかなり注目を集めましたが、限界も分かってきています。そこで、LLM自身にデータベースの使い分けをさせる手法や、複数のDBを併用する手法が登場し、ベクトルDB以外のデータベースを活用するトレンドが登場しています。
https://zenn.dev/knowledgesense/articles/077ad1ab0f9ff6
この傾向は、更に強まり、普及するはずです。実際、企業に保管されているデータを考えると、RDBや、エクセルなどの半構造化データで溜まっていることが多いです。これらのデータをうまく活用できるようなRAGの手法は、まだまだ出てきそうです。

 4. メタ認知の獲得OpenAIから、「o3」という最新LLMが発表されています。まだ利用できませんが、「o3 mini」が2025年1月末に利用開始になることは公表されています。
正直なところ、o1/o3などの「深く考える」シリーズが、どこまでRAGに使えるのか、今のところ不明です。OpenAI公式によるドキュメントには、「o1をRAGに使うなら、本当に関係あるドキュメントだけを渡してください」という注意書きだけが記載されています。
とはいえ 2025年には、o1/o3を、上手くRAGに活用する手法が登場するかもしれません。もしそうなると、GPTシリーズと比べて強みである「メタ認知能力」を駆使して、RAGの回答を精度向上する感じの手法になると思います。例えば、間違っていることを自認したり、ユーザー意図を聞き返したりなど、より柔軟な動きができるようになるはずです。

 5. AIエージェント x RAG2024年のAIエージェントは、若干「幻滅期」に入っていたような気がします。例えば「Agentless」や「REAPER」のような、エージェントではない手法が登場しています。
https://zenn.dev/knowledgesense/articles/73df428cfec29b
エージェントではない手法というのは、要するに、LLMに、次の行動を決めさせないタイプの手法です。普通に便利で速いので、2025年は引き続き、類似手法が出てくると思います。
一方で、AIエージェントについても2025年、ビジネス利用でも定着するのでは、と予想しています。エージェントが幻滅されてしまう理由は、「変なところで沼った結果、長考したのに的はずれな回答が来る」という体験のせいです。
しかし、既に見てきたように、もっと多くの文脈を共有可能になり、かつメタ認知力も高まれば、見当外れな回答も少なくなるはずです。AIエージェントと、RAGと。今後は、これらの境界がほぼ無くなりながら、定着していくと予想します。
ちなみにLayerXの松本さんは「数年先を考えるとはAIエージェントどころじゃない」とおっしゃっていますが、僕もその通りだと考えています。（詳しくは2025年に。楽しみにお待ちください！）

 パーソナルAIAIエージェントについて、OpenAIのCEOサム・アルトマン氏は
我々の子どもたち世代では、あらゆる教科・言語について、その子のペースに合った最適な指導ができるバーチャル家庭教師が普及しているだろう
と語っています。
OpenAI社が、メモリー機能・プロジェクト機能のような、地味でバズりづらい機能を強化している理由も、このパーソナルAIに向けた「文脈の獲得」をするためです。2025年、「普及」とは言わないまでも、単なるチャット体験に限らない、パーソナルなAI（RAGエージェント）が、もっと出てくると思います。

 6. 小規模言語モデル（SLM）最後に、SLM（Small Language Model）についても触れます。2024年はGoogleのGemmaやAppleのOpenELMなど、小型モデルが登場しました。特に、アリババのQwen 2.5や マイクロソフトのPhi-4は、かなりの性能です。
SLMは、高速で安価なので、最新のRAG手法でもよく登場します（Ex. Speculative RAG、GNN-RAG）。
Phi-4のテクニカルレポートによると、GPT-4で最高品質のデータを作成して学習させることで、小さい学習データでも高性能モデルを構築できたとのことです。2025年は、GoogleやAnthropicが似たような手法を用いることで、より高性能なSLMを出してくる可能性は高いです。
またSLMは、ローカルで実行できる点もメリットであり、セキュリティ的なニーズも満たせます。が、この点は、RAGではあまり、関係ない話かもしれません。Salesforceをはじめ、企業がクラウドサービスを利用し続けることは変わらないと思うので、回答のソースは結局、クラウドにあり続けます。なので、便利なRAGを使いたければ、SLMのこの特徴は、あまりメリットにならなそうです。

 まとめ以上、RAGは、回答精度が上がることで、2025年ますます注目されるのではないかという予想をしました。根拠が柔らかいところもありますが、なるべく現在の技術トレンドと、現場の肌感覚をもとに仮説を立てています。
みなさまが業務で生成AIシステムを構築する際も、参考にしていただければ幸いです。今後も、生成AI・RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら。

ナレッジセンス - AI知見共有ブログPublication

株式会社ナレッジセンスは、「大企業の知的活動を最速にする」をミッションに掲げ、社内データ検索ができるAIチャットボットを開発・提供しているスタートアップです。このブログでは、LLMや検索技術、RAGの実装戦略などについて知見を共有していきます。

Discussion

非常に勉強になる記事ありがとうございます！RAGの回答精度について興味深く拝読しました。私もRAGを業務で検討/実装することが多いのですが、精度の課題はいつも悩ましいところです。実際の導入現場では、どういったユースケースで特に精度向上に苦労されることが多いですか？

差し支えない範囲でご教授いただけますと幸いですmm

Atsushi Kadowaki

コメントありがとうございます！
精度向上に苦労するケースは本当にたくさんありますが、やはり専門用語や社内用語に答えさせたい場合や、文書を全体的に広く見て回答してほしい場合には、特に苦労しております。よろしければ以下もご参考ください！