「RAG」の将来について。「GPT-5」開発者の発言から
株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。
この記事は何
本記事では、OpenAI開発者への最新インタビューから、今後のRAG動向を予想します。
本記事で参考にしているインタビューは、こちらの[1][2] 2本です。
登場する開発者は全員、「GPT-5」の開発に、リーダーレベルで関わっている方々です。公式リリース等には出ていない情報も多く、とても勉強になります。
本題
ざっくりサマリー
GPT-5がリリースされました。当然、モデルの性能が上がるほど、RAGの精度が上がります。とはいえ、単に「コーディング」の精度が上がるだけだと、正直、あまりRAGに関係ありません。
しかし今回、GPT-5に関わったOpenAI開発者のインタビューをじっくり読み解いてみると、①今後もエンタープライズRAGが重要であり続けること、しかも ②RAG精度向上の余地がまだまだある こと、を再認識できます。
1. RAGの性能、まだまだ上がる
OpenAIのCROであるマーク・チェン氏は、「Scaffolding」を無くしていきたいと語っています。[2:1]「Scaffolding」というのは、開発者がAIモデルを使ってサービスを作る時、「色々頑張らなければいけない」部分のことです。
チェン氏は、「そもそものモデルの性能(ツール理解、幻覚対策など)を高めることで、開発者が頑張る必要性をなくしたい」と言っています。
そして、RAGはまさに、この「Scaffolding」の代表例です。(RAGで精度を出すには、「色々頑張らなければいけない」ので。)
確かにRAGにおいて、そもそものAIモデルの能力が上がると、無駄な「頑張り」は不要になる、ということはよくあります。
そして、今回のインタビューでは、RAGにとって重要なAIモデルの性能(特にコンテキスト長さ、理解力、ツール実行能力、幻覚など)をまだまだ上げていきたいと語られていたので、安心しました。「GPT-5」を使っておけば全部解決、というわけではないですが、間違いなくRAG性能は底上げされます。
2. 「コンテキストエンジニアリング」、まだまだ重要
GPT-5の入力上限は400Kトークンです。[3]。かなり長くなりましたが、チェン氏は、コンテキスト管理は、まだまだ「big limitation」であると語っています。
どれだけコンテキスト長を伸ばしたとしても、「適当な文章を放り込めばいい」というわけにはいかないからです。雑多な内容をコンテキストに入れてしまうと、AIの出力精度も落ちてしまいます。
まあ、この「コンテキストエンジニアリング」が重要という話、割と 「当たり前」の「常識」 だったと思います。が、GPT-5リリース後のパラダイムにおいても、まだまだこの常識が通用するんだなという点が、学びになる点です。
3. 「推論モデル+RAG」が当たり前になる
「WebGPT」時代からOpenAIで開発しているクリスティーナ・キム氏は、GPT-5の幻覚を減らす手段として「思考過程を挟む」ことが効いたと発言しています[1:1]。これにより、勢い任せで嘘を付く可能性が減ったそうです。
これまでのRAGシステムだと、LLMのハルシネーションを防ぐために、色んな工夫が必要でした。(例えば内部知識を活用したり[4]、ファインチューニングしたり[5]。)
しかしRAGに推論モデルを利用することで、「しかし信頼性も高いRAG」の構築が、簡単に出来るようになります。しかも、「GPT-5」では、推論モデルでありながら「いい感じの」速度で返してくれる能力も強化したとのことです[1:2]。
ちなみに僕が2024年末に書いたRAG予想でも、「メタ認知獲得」とRAGの精度について指摘しましたが、この点はバッチリ予想的中です。
4. 「Computer Use」が勃興する
「ユーザーの代わりにPC操作をするAIエージェント」は、エンタープライズ企業では結構ニーズが大きいです。現在多くのエンタープライズ企業が導入している「RPAツール」は柔軟性がなく、壊れやすく、メンテナンスが大変です。
そうした業務こそ、PC操作を自動化するAIエージェント「Compuer Use」利用することで柔軟で、壊れづらいシステムの構築が可能... なのですが、
一方で、現在のCompuer Useは、性能が低いです。正直、セキュリティや信頼性を求める大企業が、実務で利用していいレベルには無いです。ただ、今回のインタビューで面白い話が有りました。
OpenAIで「ChatGPT Agent」チームを率いるイッサ・フルフォード氏は、「現在のCompuer Useはデータ不足。人がPC操作したデータなんて、これまでほとんど集められて来なかった。」と言います[1:3]。しかし、現在OpenAIでは「合成データを活用」しようとしていて、ある程度「PC操作」できるAIを使って、データを量産することで、性能を爆発的に上げようとしている。とのことです。
PC操作とRAGが組み合わさると、RAG・生成AIのユースケースがさらに、爆発的に広がります。
その他の面白かった話
- Deep Researchチームは最初、2名から始まった[1:4]
- Deep Researchの開発時、徹底的な学習データの絞り込みが精度向上に直結した[1:5]
- 既存のベンチマークが飽和気味でも「AGI」としないのは、実世界に役立つ性能が、まだまだ必要だと考えているから。エクセル操作やスライド作成など新しいベンチマークを作成している[1:6]
- DeepSeekから学べる点はあれど、中長期の研究プランは変わっていない[2:2]
- コード生成能力強化を戦略的に重要視している。ソフトウェアを通じて社会に大きな価値提供ができるから[2:3]
- OpenAIのCOOによると、今後も値下げしていく戦略とのこと。値下げすると、その分、利用量が増えるからセーフ。というロジックらしい[6]
まとめ
弊社では普段から、エンタープライズ向けに生成AIサービスを開発しています。最近、RAGに求められる性能はますます高まってきていると感じます。
単にFAQに回答できるだけでは不十分で、スキャンPDFを含む社内のあらゆるデータを連携できるようにしたり、ディープにリサーチしたり...AIの性能向上に伴い、さらに複雑なことが 求められるようになってきます。
「AIがこの数年でどのように進化するか」についてビジョンを持っていることで、開発者として、ますます良いサービスが実装できるようになると思います。
みなさまが業務でRAGシステムを構築する際も、参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら。
参考
僕がここでフィーチャーした内容以外にも、かなり示唆に富んだ発言が多いインタビューでした。ぜひ、元の動画を視聴してほしいです↓
Discussion