🏅

「RAG」の将来について。「GPT-5」開発者の発言から

に公開

株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。

この記事は何

本記事では、OpenAI開発者への最新インタビューから、今後のRAG動向を予想します。

本記事で参考にしているインタビューは、こちらの[1][2] 2本です。

登場する開発者は全員、「GPT-5」の開発に、リーダーレベルで関わっている方々です。公式リリース等には出ていない情報も多く、とても勉強になります。

本題

ざっくりサマリー

GPT-5がリリースされました。当然、モデルの性能が上がるほど、RAGの精度が上がります。とはいえ、単に「コーディング」の精度が上がるだけだと、正直、あまりRAGに関係ありません。

しかし今回、GPT-5に関わったOpenAI開発者のインタビューをじっくり読み解いてみると、①今後もエンタープライズRAGが重要であり続けること、しかも ②RAG精度向上の余地がまだまだある こと、を再認識できます。

1. RAGの性能、まだまだ上がる

OpenAIのCROであるマーク・チェン氏は、「Scaffolding」を無くしていきたいと語っています。[2:1]「Scaffolding」というのは、開発者がAIモデルを使ってサービスを作る時、「色々頑張らなければいけない」部分のことです。

チェン氏は、「そもそものモデルの性能(ツール理解、幻覚対策など)を高めることで、開発者が頑張る必要性をなくしたい」と言っています。

そして、RAGはまさに、この「Scaffolding」の代表例です。(RAGで精度を出すには、「色々頑張らなければいけない」ので。)

確かにRAGにおいて、そもそものAIモデルの能力が上がると、無駄な「頑張り」は不要になる、ということはよくあります。

そして、今回のインタビューでは、RAGにとって重要なAIモデルの性能(特にコンテキスト長さ、理解力、ツール実行能力、幻覚など)をまだまだ上げていきたいと語られていたので、安心しました。「GPT-5」を使っておけば全部解決、というわけではないですが、間違いなくRAG性能は底上げされます。

2. 「コンテキストエンジニアリング」、まだまだ重要

GPT-5の入力上限は400Kトークンです。[3]。かなり長くなりましたが、チェン氏は、コンテキスト管理は、まだまだ「big limitation」であると語っています。

どれだけコンテキスト長を伸ばしたとしても、「適当な文章を放り込めばいい」というわけにはいかないからです。雑多な内容をコンテキストに入れてしまうと、AIの出力精度も落ちてしまいます。

まあ、この「コンテキストエンジニアリング」が重要という話、割と 「当たり前」の「常識」 だったと思います。が、GPT-5リリース後のパラダイムにおいても、まだまだこの常識が通用するんだなという点が、学びになる点です。

3. 「推論モデル+RAG」が当たり前になる

「WebGPT」時代からOpenAIで開発しているクリスティーナ・キム氏は、GPT-5の幻覚を減らす手段として「思考過程を挟む」ことが効いたと発言しています[1:1]。これにより、勢い任せで嘘を付く可能性が減ったそうです。

これまでのRAGシステムだと、LLMのハルシネーションを防ぐために、色んな工夫が必要でした。(例えば内部知識を活用したり[4]、ファインチューニングしたり[5]。)

しかしRAGに推論モデルを利用することで、「しかし信頼性も高いRAG」の構築が、簡単に出来るようになります。しかも、「GPT-5」では、推論モデルでありながら「いい感じの」速度で返してくれる能力も強化したとのことです[1:2]

ちなみに僕が2024年末に書いたRAG予想でも、「メタ認知獲得」とRAGの精度について指摘しましたが、この点はバッチリ予想的中です。

4. 「Computer Use」が勃興する

「ユーザーの代わりにPC操作をするAIエージェント」は、エンタープライズ企業では結構ニーズが大きいです。現在多くのエンタープライズ企業が導入している「RPAツール」は柔軟性がなく、壊れやすく、メンテナンスが大変です。

そうした業務こそ、PC操作を自動化するAIエージェント「Compuer Use」利用することで柔軟で、壊れづらいシステムの構築が可能... なのですが、

一方で、現在のCompuer Useは、性能が低いです。正直、セキュリティや信頼性を求める大企業が、実務で利用していいレベルには無いです。ただ、今回のインタビューで面白い話が有りました。

OpenAIで「ChatGPT Agent」チームを率いるイッサ・フルフォード氏は、「現在のCompuer Useはデータ不足。人がPC操作したデータなんて、これまでほとんど集められて来なかった。」と言います[1:3]。しかし、現在OpenAIでは「合成データを活用」しようとしていて、ある程度「PC操作」できるAIを使って、データを量産することで、性能を爆発的に上げようとしている。とのことです。

PC操作とRAGが組み合わさると、RAG・生成AIのユースケースがさらに、爆発的に広がります。

その他の面白かった話

  • Deep Researchチームは最初、2名から始まった[1:4]
  • Deep Researchの開発時、徹底的な学習データの絞り込みが精度向上に直結した[1:5]
  • 既存のベンチマークが飽和気味でも「AGI」としないのは、実世界に役立つ性能が、まだまだ必要だと考えているから。エクセル操作やスライド作成など新しいベンチマークを作成している[1:6]
  • DeepSeekから学べる点はあれど、中長期の研究プランは変わっていない[2:2]
  • コード生成能力強化を戦略的に重要視している。ソフトウェアを通じて社会に大きな価値提供ができるから[2:3]
  • OpenAIのCOOによると、今後も値下げしていく戦略とのこと。値下げすると、その分、利用量が増えるからセーフ。というロジックらしい[6]

まとめ

弊社では普段から、エンタープライズ向けに生成AIサービスを開発しています。最近、RAGに求められる性能はますます高まってきていると感じます。

単にFAQに回答できるだけでは不十分で、スキャンPDFを含む社内のあらゆるデータを連携できるようにしたり、ディープにリサーチしたり...AIの性能向上に伴い、さらに複雑なことが 求められるようになってきます。

「AIがこの数年でどのように進化するか」についてビジョンを持っていることで、開発者として、ますます良いサービスが実装できるようになると思います。

みなさまが業務でRAGシステムを構築する際も、参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら

参考

僕がここでフィーチャーした内容以外にも、かなり示唆に富んだ発言が多いインタビューでした。ぜひ、元の動画を視聴してほしいです↓

脚注
  1. "GPT-5 and Agents Breakdown – w/ OpenAI Researchers Isa Fulford & Christina Kim" ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. "Mark Chen: GPT-5, Open-Source, Agents, Future of OpenAI, and more!" ↩︎ ↩︎ ↩︎ ↩︎

  3. https://platform.openai.com/docs/models/gpt-5 ↩︎

  4. https://zenn.dev/knowledgesense/articles/1ecd331dc6b589 ↩︎

  5. https://zenn.dev/knowledgesense/articles/233978567257c7 ↩︎

  6. "OpenAI COO Brad Lightcap: GPT-5's Capabilities, Why It Matters, and Where AI Goes Next" ↩︎

ナレッジセンス - 生成AI・RAGの知見共有ブログ

Discussion