RAG x AIエージェントの最新技術動向まとめ
はじめに:なぜ今、RAGとAIエージェントなのか?
SREホールディングス株式会社のデータサイエンティストとしてRAGチャットボットサービス開発に携わっている梅田です。
近年、ChatGPTに代表されるような生成AI (LLM) の目覚ましい推論能力の進化による業務効率化の期待が高まっていますが、実務で活用されている方は意外とまだ少ないのではないでしょうか?
LLMの実務利用においてはハルシネーションや社内文書に未対応等の課題があるため、社内文書から情報を引き出して情報を生成するRetrieval-Augmented Generation (RAG) 技術の活用が広まりつつあります。
しかし、従来のRAGは基本的に静的なワークフローのため、必ずしも実務での多様な文書形態や複雑なビジネス要求に応えられないシーンがあります。このような課題を解決するために、自律的なAIエージェントをRAGのプロセスに組み込むAgentic RAGのアプローチが注目されています。
そこで本記事では、サーベイ論文等を元に俯瞰的にAgentic RAGの技術動向を整理したいと思います。※RAGの概要はある程度ご存知であることが前提の記事となります。
RAGの進化と課題
Agentic RAG以前の主要なRAGのアーキテクチャとして、Naive RAGやAdvanced RAG、Modular RAG、Graph RAGが挙げられます [4]。
各アーキテクチャの特徴と課題は次のように整理できます [1-4]。
アーキテクチャ | 概要 | 課題 |
---|---|---|
Naive RAG | 関連コンテキスト検索用のIndexing、Retrieval、Generationの3ステップから成る最も基本的なRAG | より複雑なクエリや多段階の推論タスクで回答精度が低い |
Advanced RAG | Retrieval前後にクエリ書き換えやリランキング等のクエリ、インデックス、embeddingを最適化する処理を追加したNaive RAGの発展形式 | ↑ |
Modular RAG | Retrieval、Generation等のコンポーネントを独立した再利用可能なモジュールとし、タスクに合わせて最適に構成 | ・多数のモジュールを効果的に連携させるための複雑性の管理 ・特定のタスクに最適なモジュール構成の決定 |
Graph RAG | 関連コンテキストデータを知識グラフデータとして保持し、クエリに関連するコンテキストをグラフの関係リンクを辿り、芋づる式に検索 | グラフの構築、保守、およびクエリ処理の複雑さ |
Agentic RAG | ・自律的なAIエージェント をRAGプロセスに統合 ・クエリの複雑さに応じた動的な意思決定による検索戦略の自律的な評価と管理 ・反復的な洗練 による検索精度と応答の関連性の向上 |
・複数の自律エージェント間の協調とオーケストレーションの複雑さ ・エージェントの意思決定の透明性と追跡可能性の確保 ・予期しないエージェントの行動や誤った意思決定のリスク |
アーキテクチャの高度化に伴い個々のタスクへの対応力は高まりましたが個別対応的な側面が強く、実務上の要求の複雑さに応じた動的な対応ができないことが課題としてあります。
そこで、RAGの柔軟性と自律性を高めるために、AIエージェントをRAGに組み込むアプローチが注目されています。
AIエージェントとは?
そもそも「AIエージェントの定義は何か?」の問いに答えるために、各参考文献に記載されている内容を整理してみました。
参考文献 | 特徴 |
---|---|
IBM, MS [2] | ・言語モデルを搭載したエンティティであり、複数のイテレーションにわたって目標を計画し、行動を実行できる ・エージェントは「脳、知覚、行動」で構成される ・単一エージェントまたは複数のエージェントが連携して問題を解決する ・各エージェントにはペルソナと、タスク達成に役立つ様々なツールへのアクセスが付与されることが多い ・記憶コンポーネントを持つエージェントもあり、メッセージやプロンプトの外で情報を保存・読み込みできる ・計画能力、行動実行能力を持つ |
Gartner [5] | ・特定の目標を達成するために、独自に意思決定を行い、行動を起こすように設計されたソフトウェア・プログラム ・エージェント型AI は、さまざまなAI 手法と、記憶、計画、環境の感知、ツールの使用、安全ガイドラインの遵守などの機能とを組み合わせ、独自の判断で目標を達成するためのタスクを実行する |
[1] | ・LLM(定義された役割とタスク付き)、メモリ(短期および長期)、プランニング(リフレクションと自己批判)、ツール(ベクトル検索、ウェブ検索、API等)で構成される ・リフレクション、プランニング、ツール利用、マルチエージェントコラボレーションなどのエージェント的パターンを活用して、意思決定と適応性を高める |
[3] | ・(Agentic RAG内での位置づけとして) 情報検索と生成のプロセスを大幅に強化するためにRAG技術に統合された自律的なエンティティ ・ユーザーのクエリの理解、検索戦略の計画、多様なツールの活用、推論の動的な調整、情報検索と統合の最適化の役割を担う ・完全に成熟したインテリジェント エージェントは、環境から学習し、複雑な計画を作成し、タスクを自律的に実行する権限を持つ |
これらを統合すると、次のような定義で理解しておけば良いかと思います。
💡 AIエージェントの定義
AIエージェントとは、脳 [(ペルソナの付与された) 言語モデル、LLM] + 知覚 [計画、リフレクション、自己批判、意思決定] + 行動 [Tool実行] (+記憶 [短長期メモリ] )で構成され、目標を達成するために、単一または複数連携にて自律的にタスク実行するよう設計されたエンティティ (プログラム) である。
※図は[1]より引用
AIエージェントとRAGの統合
AIエージェントをRAGに統合したAgentic RAGについて[1]では下表のように分類されています。
# | 技術名 | カテゴリ | 特徴 | 代表的構成要素 | 主なユースケース |
---|---|---|---|---|---|
1 | Single-Agent Agentic RAG | 単一エージェント型 | 1つのエージェントが全タスクを管理 | LLM, Retriever, Tool APIs | FAQ, 単純な文書検索 |
2 | Multi-Agent Agentic RAG | 複数エージェント型 | 専門エージェントによる分担・並列処理 | Coordinator, Specialized Agents | 複雑な調査、マルチドメインQA |
3 | Hierarchical Agentic RAG | 階層型エージェント | 上位エージェントが下位エージェントを制御 | Top/Mid/Low Agents, Delegation Flow | ファイナンス、戦略分析 |
4 | Corrective Agentic RAG | 自己修正型 | 文書の関連性評価 → クエリ再構成 | Relevance Agent, Refinement Agent | 学術調査、高精度QA |
5 | Adaptive Agentic RAG | 適応型 | クエリの複雑度に応じた戦略分岐 | Classifier, Strategy Selector | 顧客対応、ドキュメント検索 |
6 | Agent-G | グラフ拡張型 | グラフ知識 × 非構造文書の統合 | Graph Retriever, Critic Module | 医療診断、構造推論 |
7 | GeAR | グラフエージェント型 | グラフ展開による多段推論 | Graph Expansion, Agent Decision | 多段質問応答(例:作家の影響関係) |
8 | Agentic Document Workflows (ADW) | 文書処理自動化 | ドキュメント処理のE2E自動化 | Parser, State Manager, Reasoning Agent | 請求書処理、契約分析、監査レポート |
ざっくり言うと、1~5はNaive RAG、Advanced RAG、Modular RAGをAIエージェントを使って発展させたアーキテクチャであり、AIエージェントの導入によりタスクの複雑さに対する柔軟性を高めて実務での有効性を高めるアプローチと言えるかと思います。
同様に、6~7はGraph RAGについてAIエージェントを使って発展させたアーキテクチャと言えそうです。
8のAgentic Document Workflowsはユースケースを限定したやや特殊なアプローチであり、一言でいうと「請求書処理や契約レビューなどの“文書ベースの業務プロセス”を、エージェントを使って自動化・最適化するアーキテクチャ」と捉えられます。
※図は[1]より引用
構成要素 | 説明 |
---|---|
Document Parser | LlamaParseなどを使い、文書を構造化データに変換 |
State Manager | マルチステップの中で「どの処理が終わっていて、何を保持しているか」を追跡 |
Retriever | 文書内容に加えて、ベクトルDBや外部ナレッジから情報を取得 |
Reasoning Agent | 業務ルールや文脈に基づき意思決定(例:支払い判断、契約違反の検出) |
Structured Report Output Module | 最終的に構造化レポートや判断結果を出力(JSON, Excel, Tableなど) |
上表の構成要素から成り、ParserやState Managerを有する部分が特に特徴的です。
ユースケースとしては以下のような実務での適用可能性の高そうなものが挙げられ、エンタープライズ向け業務フローの自動化に有効なアプローチと考えられます。
- 請求書から金額・支払い期日・契約条件を抽出し、支払い判断レポートを生成
- 契約書から重要条項を抽出し、リスクスコアを付けてレビュー支援
- 保険金請求書類を処理し、自動的に適否判断を提示
まとめ
以上のようにRAGにAIエージェントを統合したAgentic RAGは、多様な文書形態や複雑なビジネス要求が想定される実務へのRAGの実適用の観点で、従来の静的なフローに対して柔軟性を与え、タスク達成のために動的に最適なアプローチを実行することができるため、今後ますます活用される技術となることが予想されます。
一方で、意思決定をエージェントに委ねることになるため予期しない動作をする可能性がある、トークンコストやレイテンシー等、ビジネス利用するには様々な課題もあります。これらの課題を念頭におきつつ、上手く有効活用することが今後のビジネス展開において重要であると考えています。
以上、皆さまのAIエージェントへの理解やRAGへの適用の参考になれば幸いです。
参考
[1] A. Singh, et al., Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG, 2025.
[2] T. Masterman, et al., The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey, 2024.
[3] M. Cheng, et al., A Survey on Knowledge-Oriented Retrieval-Augmented Generation, 2025.
[4] Y. Gao, et al., Retrieval-Augmented Generation for Large Language Models: A Survey, 2024.
[5] Gartner, 2025年の戦略的テクノロジのトップ・トレンド, 2025.
Discussion