🏅

RAG技術の現状考察と2025年のトレンド予想

2024/12/24に公開

本記事では、現在流行している「RAG」技術について、2024年トレンドの振り返りと、2025年の予想をします。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。

この記事は何

2024年は、RAGが大流行した年でした。この記事では、2024年の技術トレンドを振り返りつつ、2025年のRAGの進展を予想したいと思います。技術的トレンドはもちろん、普段、企業向けにRAGを提供している会社としての、僕の肌感覚も合わせて、お伝えできればと思います。

本題

ざっくりサマリー

結論として、RAGは、来年も変わらず流行し続けると予想します。

まず来年は、これまで以上に回答精度が向上するのは間違いないです。その理由は、LLMの価格低下トレンドと入力できるコンテキスト増大トレンドが、まだ続くためです。加えて、LLMが「視覚・音声」の入力手段を獲得したこと、ベクトルDB以外のDB活用トレンドも、RAGの精度向上に寄与します。

また、「AIエージェント x RAG」のアーキテクチャや、小さい言語モデル(SLM)のRAG活用についても、加速すると考えています。

RAGは終焉したのか

Twitterでは、「RAGの流行が過ぎた」ような言説を見かけるようになりました。実際、僕の感覚でも、「RAGは、銀の弾丸ではない」ということが、ユーザー企業にも認識されるようになってきたと感じています。

RAGが幻滅されてしまう一番の原因は、「回答精度が低い」ことです。

しかし、2024年の技術進歩を見ていると、RAGパイプラインのあらゆる面で、精度が劇的に改善できる可能性が見えてきています。これを踏まえると、2025年には、RAGの回答精度がまだまだ高まりそうです。そしてこれにより、さらなるユースケースが見つかるので、引き続き、RAGの流行は続くのではないかと考えます。

1. LLMのコンテキスト増大とコスト低減

RAGの精度を考えるときに、LLMの性能はかなり重要なファクターです。

2024年には、LLMに入力できる文字数(いわゆる「コンテキストウィンドウ」)が増え、LLMの利用料金が安くなるという技術トレンドがありました。

コンテキスト増大

入力できる文字数について言えば、Geminiは2M、Qwenは1Mまで拡大しています。前提として、コンテキストウィンドウがいくら長くても、それ単体でRAGを代替できるわけではありません(参考)。しかしそれでも、長くなるほど多くの文章をLLMに渡せるので、回答精度は上がりやすいです。

コスト低減

LLMの利用料金も、値下げトレンドにあります。特に蒸留や枝刈りのような、高価なモデルを安く再現するための手法は、今後も活躍します。Google Brain 創設者であるAndrew氏も「値下げされる前提でサービスを作って問題ない」と言っています

LLMの利用料金も、値下げトレンドにあります。
価格が安くなるということは、たくさんのことを、何度も、LLMに考えさせることが可能になる ということです。これにより、RAGの精度改善の選択肢が大きく広がります。

2. マルチモーダルRAGの進化

2024年には「マルチモーダルRAG」が登場しました。マルチモーダルRAGとは、ファイル内に含まれる画像・図表などについても、RAGで回答できるようにする仕組みです。(実際、弊社RAGサービスでもアップデートしました)

ただ、2025年は、これにとどまらず、より一層のマルチモーダル化が進むと考えます。「マルチモーダルRAG 2.0」という感じです。2025年のRAGでは、音声でLLMに入力したり、常時、画面共有したりという体験が可能になります。これにより、LLMは、より深い「文脈」を獲得します。

文脈の獲得

この「文脈の獲得」は、間違いなくRAGの精度向上に繋がります。 これまでのRAGでは、精度が上がらない大きい原因として「ユーザーの意図が分からない」ということがありました。だからこそ、DIVAのような最新手法では、ユーザーの「雑な質問」を処理することで精度を高めていました。

https://zenn.dev/knowledgesense/articles/abf34c417b079e

これが今後、例えば、「商談に同席して、全ての内容を聞き取っているRAG」「ユーザーの画面に常駐して、エラーに至る過程を見てくれているRAG」のように進化した場合、どうでしょうか。おそらく雑なプロンプトでも、今よりもずっと、回答精度が高いはずです。

文脈がもっと共有され、ユーザーの質問意図がわかりやすくなれば、RAGの回答精度はもっと上がります。例えば、Googleによる「Project Mariner」は、この傾向の「ど真ん中」なサービスと言えるかと思います。

3. ベクトルDB以外のDB活用トレンド

2024年は、ベクトルDB不要のアプローチについての論文が多くでてきました。GraphRAGなどのグラフDBを使った手法や、RDBを使う手法です。

ベクトルDBはかなり注目を集めましたが、限界も分かってきています。そこで、LLM自身にデータベースの使い分けをさせる手法や、複数のDBを併用する手法が登場し、ベクトルDB以外のデータベースを活用するトレンドが登場しています。

https://zenn.dev/knowledgesense/articles/077ad1ab0f9ff6

この傾向は、更に強まり、普及するはずです。実際、企業に保管されているデータを考えると、RDBや、エクセルなどの半構造化データで溜まっていることが多いです。これらのデータをうまく活用できるようなRAGの手法は、まだまだ出てきそうです。

4. メタ認知の獲得

OpenAIから、「o3」という最新LLMが発表されています。まだ利用できませんが、「o3 mini」が2025年1月末に利用開始になることは公表されています。

正直なところ、o1/o3などの「深く考える」シリーズが、どこまでRAGに使えるのか、今のところ不明です。OpenAI公式によるドキュメントには、「o1をRAGに使うなら、本当に関係あるドキュメントだけを渡してください」という注意書きだけが記載されています。

とはいえ 2025年には、o1/o3を、上手くRAGに活用する手法が登場するかもしれません。もしそうなると、GPTシリーズと比べて強みである「メタ認知能力」を駆使して、RAGの回答を精度向上する感じの手法になると思います。例えば、間違っていることを自認したり、ユーザー意図を聞き返したりなど、より柔軟な動きができるようになるはずです。

5. AIエージェント x RAG

2024年のAIエージェントは、若干「幻滅期」に入っていたような気がします。例えば「Agentless」や「REAPER」のような、エージェントではない手法が登場しています。

https://zenn.dev/knowledgesense/articles/73df428cfec29b

エージェントではない手法というのは、要するに、LLMに、次の行動を決めさせないタイプの手法です。普通に便利で速いので、2025年は引き続き、類似手法が出てくると思います。

一方で、AIエージェントについても2025年、ビジネス利用でも定着するのでは、と予想しています。エージェントが幻滅されてしまう理由は、「変なところで沼った結果、長考したのに的はずれな回答が来る」という体験のせいです。

しかし、既に見てきたように、もっと多くの文脈を共有可能になり、かつメタ認知力も高まれば、見当外れな回答も少なくなるはずです。AIエージェントと、RAGと。今後は、これらの境界がほぼ無くなりながら、定着していくと予想します。

ちなみにLayerXの松本さんは「数年先を考えるとはAIエージェントどころじゃない」とおっしゃっていますが、僕もその通りだと考えています。(詳しくは2025年に。楽しみにお待ちください!)

パーソナルAI

AIエージェントについて、OpenAIのCEOサム・アルトマン氏は

我々の子どもたち世代では、あらゆる教科・言語について、その子のペースに合った最適な指導ができるバーチャル家庭教師が普及しているだろう

語っています

OpenAI社が、メモリー機能・プロジェクト機能のような、地味でバズりづらい機能を強化している理由も、このパーソナルAIに向けた「文脈の獲得」をするためです。2025年、「普及」とは言わないまでも、単なるチャット体験に限らない、パーソナルなAI(RAGエージェント)が、もっと出てくると思います。

6. 小規模言語モデル(SLM)

最後に、SLM(Small Language Model)についても触れます。2024年はGoogleのGemmaやAppleのOpenELMなど、小型モデルが登場しました。特に、アリババの Qwen 2.5 や マイクロソフトの Phi-4 は、かなりの性能です。

SLMは、高速で安価なので、最新のRAG手法でもよく登場します(Ex. Speculative RAGGNN-RAG)。

Phi-4のテクニカルレポートでは、GPT-4で最高品質のデータを作成して学習させることで、小さい学習データでも高性能モデルを構築できたとのことです。2025年は、GoogleやAnthropicが似たような手法を用いることで、より高性能なSLMを出してくる可能性は高いです。

またSLMは、ローカルで実行できる点もメリットであり、セキュリティ的なニーズも満たせます。が、この点は、RAGではあまり、関係ない話かもしれません。Salesforceをはじめ、企業がクラウドサービスを利用し続けることは変わらないと思うので、回答のソースは結局、クラウドにあり続けます。なので、便利なRAGを使いたければ、SLMのこの特徴は、あまりメリットにならなそうです。

まとめ

以上、RAGは、回答精度が上がることで、2025年ますます注目されるのではないかという予想をしました。根拠が柔らかいところもありますが、なるべく現在の技術トレンドと、現場の肌感覚をもとに仮説を立てています。

みなさまが業務で生成AIシステムを構築する際も、参考にしていただければ幸いです。今後も、生成AI・RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら

ナレッジセンス - AI知見共有ブログ

Discussion