😏

RAGを選ぶ時代 - GPT-5の失敗から学ぶ認知負荷とアーキテクチャ設計

に公開

RAGを選ぶ時代 - GPT-5の炎上から学ぶ認知負荷とアーキテクチャ設計

はじめに - RAGは避けられない現実

事業開発の現場でAI技術を検証・実装していると、LLMだろうがSLMだろうが、結局RAG(Retrieval-Augmented Generation)なしではキツいケースばかりに出会います。

私がこれを痛感したのは、GPTsでのコンテキストエンジニアリング中に、論理圧縮式プロンプト(疑似コード込み)を詰め込んでモデルの認知負荷限界に直面した時でした。

完全な純粋な独創性を求められるアプリケーション以外、ほとんどの場面でRAGが必要になってきているのが現実です。

RAGが不要なAIアプリケーションとは?

改めて整理すると、RAGが不要なのは以下のような領域かな、と認識してます。
以下以外にもあるのかもしれませんが、世の中に出す以上相応の制限やルールが必要だよな、と思います。

創作・生成系タスク

  • 小説や詩の創作
  • 音楽やアート作品の生成
  • ブレインストーミングや発想支援

汎用的な推論・分析タスク

  • 論理パズルの解決
  • 数学の証明
  • コード生成(特に基本的なアルゴリズム)

対話・会話系

  • 雑談や日常的な対話
  • 言語学習の練習相手
  • ロールプレイング

これらは既存の情報よりも、モデル内在の創造性や推論能力が重要な領域かと思います。より自由なAIが持ち合わせている創造性が求められる領域なのかな、とも思います、とくに創作の領域は利用者のより自由な発想が大切だと思いますしね。もちろん、一部のものは基本的な安全性なんかのルールは設定が必要だとは思います。
しかし、世の中に流通するようなレベルのビジネスアプリケーションは、外部知識との組み合わせが前提となっている、ないしは前提になっていくんじゃないかなあ、と考えてます。

中身的な話というか技術的な話ではありますが、まあ認知負荷の軽減こそが、RAGの本質的な役割なのかな、と最近思う次第です。
これもまあ違うというご意見もあるやもしれません、それもまた良いと思ってます。

RAGアプローチの進化と選択肢

現在、RAGには主要な4つのアプローチが存在すると認識しています。
他にも増えるかもしれないですし、私の知らないものもあるかもしれません。(2025/8月末)
自己整理もかねて書いてますが、他にもあったら「あるぞー!」と教えてもらえるとワクワクします。私が。

アプローチ 検索手法 強み 弱み 主要用途
NativeRAG キーワード/ベクトル検索 実装が容易、柔軟性が高い 関係性推論に弱い 幅広いドキュメント検索
GraphRAG ナレッジグラフベース 一貫性・説明可能性が高い 構築コストが高い エンティティ関係の追跡
HybridRAG 両方を併用 精度と柔軟性を両立 コンテキスト増大、複雑化 非構造化・構造化データ混在
AgenticRAG 動的ツール選択 高い適応性・柔軟性 高コスト、複雑な制御 マルチソース横断タスク

ここで大事な要素というか理解しておきたいのは、複雑性が増すほど制御の難しさも指数関数的に増加することです。
だから気軽に色々なRAGを使う、というのもいかないのがまた苦しいところです。
かけ合わせたら最強なのはそうなんですけどね、っていうところですね。

GPT-5炎上の技術的原因

GPT-4の段階では、MoE(Mixture of Experts)採用は推測レベルで関係各所で話題だったかな、と記憶してます。少なくとも観測していた範囲では話題になっていた認識です。GPT5のユーザー体験から、MoE構成はほぼ確定的になりました。私自身も触って検証して「あ~」なんて、思いました。そして、この構成こそが今回の「炎上」の根本原因と言うか、技術的な原因の一旦かな、と感じてます。
認知負荷的に耐えられるわけないよな、とか。
最初の司令塔(ルーター)が判断をミスったらまあ命取りという形になるますよね、とか。
色々AIアプリケーションに携わっている人たちは思う事感じる事もあったと思います。わかりませんけど。
まあ、さすがに「Keep4o」運動がここまで大きくなるとは思っていませんでしたが。
ある程度のユーザー側のお気持ちは出ることはOpenAIも織り込み済みだったとは思うが、想定外の大きな火傷だったろうな、と思います。

「人の温かみ」の消失は調整ミスの産物

多くのユーザーが感じた「人の温かみの消失」は、単なるトーンの問題ではありません。これはMoEのルーティング戦略の失敗による構造的問題と捉えてます。個人的にですが。:

  • 適切なエキスパートモデルへの振り分け失敗
  • 安全牌を選ぶルーターの保守的判断
  • 結果として機械的で断片的な応答生成

GPT-5が殺したもの - 創造性の死

触っていて検証していてGPT-5は顕著に感じ増した。
ある意味で「AI殺人(?)事件」だったなあ、なんて私は考えています。
何が殺されたのか?それはAIの創造性です。

  • GPT-4時代:120点の驚きある回答、「そんな視点があったか!」
  • GPT-5:70点の優等生、正しいが面白くない安全な応答

想像性がなくなり、短時間での大量生成は可能になったものの、ユニーク性を伴わない「似たようなものを量産するだけの面白くないやつ」になってしまいました。
これが良く出る領域ももちろんあると思いますが、創造性を必要とする領域では結構大変になりそうだなあ、と。
使う側の技量が求められるようになったなあ、と感じた次第です。

皮肉な結果として:

  • 量産性 ✓(向上)
  • 再現性 ✓(向上)
  • 創造性 ✗(死亡)
  • 人間らしさ ✗(死亡)←これをユーザーが機敏に感じ取って運動が起きた

最初に挙げた「RAG不要な領域」—創作、推論、対話—での能力が劣化したのです。本来RAGで補強すべき「事実知識」は向上したのに、RAGが不要な「創造性」「人間性」が失われるという、何とも皮肉な結果になりました。

チャット形式の限界とUIパラダイムの転換期

アルトマン自身が言及していたように、「チャット」というインターフェース自体が限界を迎えています。実際、多くのユーザーはChatGPTでモデルを切り替えて使うことはなかったし、モデルが何故複数あるのかも知らないから使い分けるという発想もない、GPT-5のAuto機能は、この問題を強制的に解決しようとした試みでした。
私自身の観測できる範囲の一般的な利用者(日常的なチャットや壁打ち程度)を見ても「モデル?」みたいな感じでしたしね。あ、そうか、普通は気にしないものか、と。

しかし結果として、一般ユーザーは従来と違った応答品質に混乱し、コアユーザーは制御できないAutoに苛立つことになりました。「欲しいモデル」を選べない歯がゆさが、ユーザー体験を大きく損ねたのです。
まあでも少なからずAIに携わっていた面々や開発面々は、API使ってる組なのでそこまでというよりかは、やはり根本的に安全性は上がったので好評なのかなとは思ってます。YATTANE!嬉しいね!

「正しそう」な機械的回答の罠と格差拡大

より深刻なのは、GPT-5のThinkingが学術的で機械的に「正しそう」な回答を返すようになったことです。これにより**「AIを使いこなせる人材」と「使いこなせない人材」の格差**が拡大するな、と一抹の恐怖を味わいました。言い過ぎかもしれませんが個人の素直な感想ですが、そう思いました。

以前との違い:

  • GPT-4時代:明らかな間違いは一目瞭然で、ユーザーも疑いやすい
  • GPT-5時代:表面的には論理的で学術的だが、深い洞察や創造性を欠いた回答

Thinkingが生み出す「論理的だが致命的」な誤り

最も恐ろしいのは、GPT-5のAutoのThinking的なモデルやThinkingが**「論理的整合性があるために、誤りを検知する心理的ハードルが跳ね上がる」**ことです。実際の例を見てみましょう:

医療診断での例:

  • Thinking:「肺野のびまん性影 → 間質性変化 → 高齢患者 → 特発性肺線維症の可能性が高い」
  • 実際:急性肺水腫で、処置を誤ると死亡リスク
  • 問題:論理は一貫して正しく見えるが、診断基盤のデータが不足

法的判断での例:

  • Thinking:「契約条項第10条の債務不履行 → 納期3週間遅延 → 契約解除可能」
  • 実際:第12条の不可抗力免責条項を見落とし
  • 問題:学術的に論理整合しているが、重要な条項を読み飛ばし

共通する危険性:

  1. 論理展開自体は学術的に見える
  2. 一部の前提や視点の欠落がある
  3. 人間が「正しそう」と思い込む

従来の明らかに間違った回答なら「これおかしくない?」と疑えましたが、詳細な思考過程を見ると「なるほど、そういう考え方か」と納得してしまう危険性が潜んでいます。所謂本職の人や多少なりとも知識がある人が見れば「?」となりえると思います。
どちらの領域も私個人は本職ではないですが、そこそこGoogle先生に相談して問題は問題か、となってますがThinkingの回答だけ見せられてそれこそ昨今のAIの回答を信じ込みやすい人が増えてきてしまった以上怖いな、と思った次第です。

この「正しそう」な機械的応答は、判断力のないユーザーほど盲信しやすく、結果として:

  • 使いこなせる人材:Thinkingの限界を見抜いて適切に使い分け
  • 使いこなせない人材:学術的っぽい回答に騙されて、そのまま信用

AGIがどれだけ進歩しても、この 「説明可能だが間違っている」問題 は構造的に残り続けると考えてます。
この理解の根本がなく、本当に「AIが言ってる」を地で行く人間は本当にいるというのが”ある”だけに怖いな、と思った体験記でもあります。
いやはやこの黎明期、我々大人も大変ですが下の世代も大変そうです。

しかし、歴史的な意義も見逃せない

GPT-5は散々叩かれましたし私もチクチクした言葉を書きましたが、約7億人にAGI的な体験をさせたという歴史的意義は見逃せません。多くのユーザーは「なんかGPT-5微妙だな」程度の認識かもしれませんが、実際には人類史上初の出来事が起きていました:

  • 複雑な質問に即座に回答するAI
  • 文脈を理解した継続的対話
  • 創作・分析・推論の横断的能力

これらを日常的に使える状態を7億人が体験したのです。OpenAIの企業価値は大きく吹き飛びましたが、人類全体としては「AGI時代の予行演習」という高い授業料を払った貴重な社会実験でもあった、という見方も出来るのかな、と思います。

この集合的な学習体験が、AIリテラシーの向上と、次世代AIへの現実的な期待値設定につながっていくことを期待したいところです。
まあ、全然難しそうでもあるな、とも思いますが体験が出来るか出来ないかは大きな違いだと思います。

AgenticRAGの6つのアプローチと複雑性の罠

今後はエージェントが流行るというか、一時的な主流になると思います。
なので、Agent周りのRAGに関してもまとめておきます。
AgenticRAGには、以下の6つの主要なアプローチがある認識です:

分類 概要 利点 注意点・課題
シングルエージェントRAG 単一エージェントで完結 シンプル、堅牢 並列処理・専門的に限界
マルチエージェントRAG 専門エージェントの協調 高度・複雑なタスクに対応 エージェント間連携が複雑
階層型エージェントRAG 上位・下位の階層構造 大規模意思決定を効果的管理 階層設計でボトルネック発生
CorrectiveRAG 自動修正・再検索 ハルシネーション低減 評価・修正プロセス設計が必要
AdaptiveRAG クエリ難易度別処理 効率的、最適な処理選択 クエリ分類精度が性能に影響
GraphベースRAG ナレッジグラフ連携 多段階推論可能 グラフDB構築・更新コスト

GPT-5の失敗が教えてくれるのは、複雑性 vs 堅牢性のトレードオフです。どんなに優秀なエキスパートを用意しても、オーケストレーション層(ルーター)が弱いと、全体として愚かなシステムになってしまいます。

※個人脳みそメモ。
GIS(地理情報システム)とLLMを組み合わせたものも面白そうと思ったりしてます。
従来のテキストベースのRAGが「文章の関連性」を扱うのに対し、土地データのRAGは 「空間・時間・属性の関連性」 を扱うのでまたちょっと区分が違うのか否か…。

現実的なRAG構築戦略 - 4フェーズでの段階的アプローチ

RAGシステムは、以下の4つのフェーズで構成されます:

Store(保存)フェーズ

  • PDFファイルのテキスト化
  • Officeファイル、音声、動画、画像データの処理
  • チャンク分割とオーバラップ設定
  • テーブル構造抽出
  • カテゴリ付け・エンリッチメント

Retrieve(検索)フェーズ

  • 検索アルゴリズムの選択
  • パラメータチューニング
  • スコアリング手法
  • カスタムアナライザ
  • 類似度チューニング

Augment(拡張)フェーズ

  • システムメッセージ定義
  • ユーザメッセージ定義
  • プロファイル検索
  • クエリ生成
  • 仮説的文書埋め込み

Generate(生成)フェーズ

  • モデル選択(回答生成用)
  • モデル選択(埋め込み用)
  • ユーザへの聞き返し
  • Function Calling
  • ファインチューニング

現実的なプロジェクト進行では、Storeフェーズで80%の工数を消費します。まあ、AIに何をどれくらい任せるかに寄るんですけど、大体AIでもBIでも一緒のデータを整えるのに大多数の工数を割くのは事実です。
というのを認識してほしですが、案外上の人らはこの辺りをご理解していただけない事も多いです、難しいものですね。
というか、このフェーズが全体通して一番重いです。本当に。
今この文章を読んでいる人は頷いているか、はたまた、そうなのか、と理解とまで言わずとも把握くらいはしておけると良いかもですね。
非構造化データのテキスト化は想像以上の地獄で、ここで躓くと後のフェーズでどれだけ頑張っても限界があります。

技術選択の現実

  1. ビジネス要求の整理(何をAIに任せたいか)
  2. データの現実把握(品質・量・形式の確認)
  3. 前処理工数見積もり(ここで大体心が一回折れかける。元データパンチの火力にもよる)
  4. RAGアプローチ選択(複雑性 vs 工数 vs リスクのトレードオフ)
  5. 運用・保守体制設計

実際には、「最新のAgenticRAGを使いたかったけど、データ前処理だけで予算を使い切った」という悲しい結末も少なくありません。
想定より前処理がかかる、なんて罠もあったりなかったり、ですからね。

RAGにおけるPrompt Engineeringの重要性

GPT-5のThinkingで見た「論理的だが致命的な誤り」は、RAG設計においてPrompt Engineeringの重要性を改めて浮き彫りにします。LLM(SLMですかね)は「暗黙知」を埋め込んだ強力な汎用モデルですが、**「何を・どのように」**させたいかを言語で細かく指定しないと期待値通りには動きません。

RAGでのPrompt Engineeringポイント:

観点 なぜ重要か RAG特有の配慮
品質向上 LLMは曖昧な指示だと高確率で曖昧な出力を返す 検索結果をどのような形式でユーザメッセージに含めるかを明確化
制御性 出力フォーマット・スタイル・分量を統一 検索クエリ生成(キーワード/ベクトル)の指示を統一
業務要件適合 ドメイン語彙・社内ルール・コンプライアンス ユーザ入力に不足情報がある場合の聞き返しロジック定義
安全性 有害・機密情報の漏洩抑制 Function Callingでのインデックス切り替え制御
モデル弱点補完 根拠提示を誘導し推論能力を補強 「以下のcontextのみ参照して答えよ」と明示

具体的な実装ポイント:

  • 検索クエリ生成:検索パラメータ生成、仮説的文書埋め込み
  • ユーザメッセージ:検索結果の適切なフォーマット化
  • Function Calling:質問内容に応じたインデックス選択制御

Azure OpenAI + RAGでは、① 検索クエリ生成 → ② 根拠注入 → ③ 回答生成 の各段階でpromptを設計し、全体フローを「言語」で制御することで、初めてエンタープライズ品質が実現できます。
(多分出来るよね…?ちょっとここ自信無いかもです。有識者是非ぜひ教えてください。)

RAGモデル選択の現実的指針

Generation精度向上のためのモデル選択

テキスト生成モデル:

  • 回答精度重視:最新で大きなモデル(gpt-4o、複雑な推論にはo1やo3など推奨)
  • 回答速度重視:軽量モデル(gpt-4o mini、o3-miniなど)
  • 多様性確保:AI Studioモデルカタログ(Llama 3.1、Mistral、Databricks Dollyなど)

重要な原則: Retrieveしたデータに必要な情報が含まれていないと、どんなモデルを使っても正しい回答はできません。検索精度が最重要です。

埋め込みモデル:

  • 基本選択:text-embedding-3-large(最高性能、非常に安価)
  • 多言語対応:Cohere-embed-v3-multilingual
  • カスタム要件:OSS埋め込みモデルのファインチューニング

GPT-5の失敗が教えてくれるのは、高性能なモデルを使っても、適切な制御なしには期待通りの結果は得られないということです。
もちろん、日本語特化モデルのELIZAなんかもやりたい事というか任せる事によっては選択に入ってくると思います。
モデル自体はなんでも言えるんじゃないかなあ、と思います。
上手に選択し、使う、付き合っていく事が大切という事をより考えさせられる一件だったな、と思います。

RAGが必須要素になった理由

安全性・信頼性・透明性の三位一体

GPT-5の事例を踏まえると、これからはRAGを組み込んでいないサービスは、安全性の問題や信頼性、AIの透明性の兼ね合いから、実用的なAIサービスとしては成り立たなくなっていくでしょう。
というか、きちんとしていますよという証明じゃないですが1つの利用規約みたいな感じになるかもしれないですね。
ポリシーとか。まあわかりませんが。

AIの透明性が重要な理由:

  • 説明責任:なぜその回答に至ったのかを明確にする
  • 信頼性確保:根拠となる情報源を提示する
  • 安全性担保:ハルシネーションや誤情報を防ぐ
  • 品質管理:回答の妥当性を検証可能にする

GPT-5のThinkingで見たような「論理的だが間違っている」回答は、根拠が不明確だからこそ発生します。RAGによって外部の信頼できる情報源を明示することで、この問題を大幅に軽減できるのです。
と、言ってもこの辺りはそれこそ企業秘密にもなりえるので難しいバランスになりそうな気もしますね。

社会実装におけるRAGの必然性

現代~未来のAIサービスは、単なる技術デモではなく、社会インフラとしての責任を負うのかと思います。今まで以上に。:

  • 医療・法務・金融:間違いが致命的な領域での信頼性確保
  • 教育・メディア:情報の正確性と出典明示
  • 企業システム:コンプライアンスと監査要件への対応

これらの要件を満たすためには、RAGによる根拠提示と透明性確保が不可欠です。
もちろん他領域でも言えると思います。
あくまでも一般常識的に、あ、そうだよね、とパッとイメージしやすい所はこの辺りかな、と。

では、どんなRAGを選ぶべきか

現状では様々なRAGアプローチが存在し、「どれが最適か」は用途によって大きく異なります。最適は何をAIに任せるのか、に帰結すると思います。

boring but reliableの価値

GPT-5の失敗から学ぶべきは、「boring but reliable」な選択肢の価値です。

企業レベル(ビジネス)でのAI導入では:

  • 複雑なマルチエージェント構成より、シンプルで堅牢なアーキテクチャ
  • ルーター・オーケストレーション層の設計に最大限の注意
  • フォールバック機構の充実

シングルエージェントRAGやCorrectiveRAGのような、技術的には「面白くない」が信頼性の高い選択肢こそが、多くの場面で正解となっていくのかな、と思います。
もしくは脳みそ的なLLMの配下にSLM複数、それこそManusのようなものを目指していくものと専用や特化型になっていくのかな、なんて思いをはせています。

終わりに - 我々は何を求め、何を殺すのか

RAGの必然性と代償

RAGは現代社会にAIを安全に実装するために不可欠です。しかし同時に、それはAIの持つ創造性や予測不可能性という「野性」を制約する仕組みでもあります。

GPT-5の事例が示したのは、私たち人類がAIに求めるものの矛盾です:

  • 安全で再現性が高く、でも創造的で人間らしい
  • 完璧で、でも驚きがある
  • 効率的で、でもユニークさを保つ

人間、わがままですね。

AIとの適切な関係性を求めて

RAGアーキテクチャの選択は、単なる技術的判断を超えて「AIとどう付き合うか」の哲学的選択でもあるのかな、と思ったりします。

安全性の為に、社会に安全に実装する為にRAGは必要です。だけど、それはAIの持つ創造性というものを殺して、人間の都合に振り回すことにもなります。

黎明期の責任

今、AI人材争奪戦の渦中にいる私たちは、歴史の転換点にいます。技術的なスキルセットだけでなく、「何を作るべきか」「何を守るべきか」の哲学的判断力も同じくらい重要なのかもしれない、と思ったりします。

GPT-5で「失敗」を経験した世代が、次のAI社会を作ります。RAGの複雑性と向き合った経験が、より良い未来の設計に活かされることを願います。

AIと人間が適切に付き合っていける未来を築くために、私たちは技術的な最適化だけでなく、何を守り、何を手放すかを意識的に選択していく必要があるのかもしれないです。
まあそんなに重苦しく考えるのも辛くなりますが、頭の片隅程度にはおいておきたいな、と個人としては思っている次第です。

何を持ってどういう風な世の中になるのかそれは今、私たちが考えることなのかもしれないですし、解き明かせず迷走しながら歩いて、次の世代に託すことになるのか。

楽しみですね、これからのAI社会。

Discussion