📝

設計書 × LLM：GraphRAGと要約インデックスで実現するドキュメント影響分析アプローチ

厳（Gen）

2025/07/24に公開3件

 はじめに設計書や仕様書を安全かつ高速にメンテナンスするには「影響分析 (Impact Analysis)」が欠かせません。

本記事では GraphDB を用いた知識グラフ と 階層要約インデックス の 2 つのアプローチを組み合わせ、Markdown 化された設計ドキュメントに対して
修正影響箇所の網羅的抽出
類似機能／関連仕様の発見
を実現するパイプラインをまとめてみました🚀

 なぜ単純な RAG では足りないのか？一般的な ベクトル検索ベースの RAG だけでは、テキスト間の 複雑な依存関係 や 類似機能のクラスター をうまく捉えられないことがあります。

そこで注目されているのが以下の 2 手法：
GraphDB + 知識グラフ (GraphRAG)
要約＋インデックスによる階層検索
それぞれの特徴と組み合わせ方法を詳しく見ていきましょう。

 アプローチ①：GraphDB を用いた知識グラフ構築
 1. コンセプトLLM で抽出したエンティティ & 関係 を Neo4j などの GraphDB に保存し、「どの機能がどの機能に依存しているか」を明示的に表現します。

Microsoft Research の GraphRAG では、ベクトル検索に加えて グラフクエリ を行い、LLM に渡すコンテキストを高精度に絞り込むことでハルシネーションを低減しています。

 2. 代表的 OSS / 参考実装

プロジェクト
概要


GraphRAG
LLM で (主語, 関係, 目的語) を抽出→知識グラフを構築→コミュニティ単位に要約→統合し回答を生成


CocoIndex 
 https://github.com/cocoindex-io/cocoindex

Markdown や設計ドキュメントから インクリメンタル／リアルタイムに Neo4j などのグラフDBへトリプレットをエクスポート可能。
「エンティティ ↔ ドキュメント」の 言及関係 も構造化して記録できます。

LlamaIndex – KnowledgeGraphIndex
ドキュメントから LLM によって (主語, 関係, 目的語) の トリプレットを自動抽出し、内部の graph_store に保存。KnowledgeGraphQueryEngine を通じて グラフ構造を活用した問合せや推論が可能です。LangChain 等の LLM フレームワークとも組み合わせて Graph‑based RAG 構成ができます。

ポイント
検索時は「変更対象ノード ➜ 関連ノードを DFS/BFS」で影響範囲を列挙
コミュニティ検出結果をそのまま「類似機能クラスター」として再利用
https://microsoft.github.io/graphrag

https://github.com/microsoft/graphrag

https://github.com/cocoindex-io/cocoindex

https://github.com/run-llama/llama_index

 アプローチ②：要約インデックスによる階層検索
 1. コンセプトドキュメントを 階層的に要約 してツリー構造のインデックスを作成。

ベクトル検索の前段階で「関連しそうな枝」を論理的に絞り込むことで、LLM が参照すべき範囲を極小化します。

 2. 実装オプション

手法 / OSS
特徴


LlamaIndex – Tree Index
チャンク ➜ セクション ➜ ドキュメント へ要約を段階的に圧縮


PageIndex (VectifyAI)
PDF を論理構造に沿って自動分割し、各ノードにタイトル・ページ範囲・要約を付与

Document Summary Index
まず 文書レベルで要約 を比較し、関連文書だけを深掘り検索

Tips
小規模ドキュメント群なら JSON/YAML などに「機能間関係メタデータ」を手動で追記しても OK
事前要約はコストがかかるものの、再利用性＆推論速度 で大きなメリットあり
https://github.com/run-llama/llama_index

https://github.com/VectifyAI/PageIndex

https://docs.llamaindex.ai/en/stable/examples/index_structs/doc_summary/DocSummary/

 全体パイプライン（Conceptual Diagram）
 プロトタイプ構成例

レイヤ
Tech Stack
役割


データ層
- Git / GitHub: 設計書 (Markdown) 管理
- Neo4j Aura: 知識グラフ
ソースと関係性を一元管理

前処理
- LangChain + OpenAI GPT-4o: Entity/Relation 抽出 & 要約
ドキュメント更新時に CI ワークフローで自動処理

インデックス
- Weaviate or Qdrant: Embedding ストア
- JSON/YAML: Summary/Meta
ベクトル類似度＋メタデータフィルタで高速検索

エージェント
- CrewAI + LlamaIndex Router

①変更要求を解釈 ➜ ②影響候補抽出 ➜ ③詳細見積もり生成

フロント
- Next.js + shadcn/ui

影響範囲グラフや要約を可視化、Pull Request コメント自動生成など


 実装時の留意点抽出精度 ≠ 完璧
関係トリプレットの 抜け漏れ は必ず発生。
影響度が高いドキュメントは 人手レビュー を挟むワークフローに。
要約は“エントリーポイント”
回答生成前に 原文を再検証 するステップ（R→R→A→C）を追加すると安全。
小規模なら “要約 + 関係リスト” だけで十分
GraphDB 導入は後回しでも PoC 可能。むしろまずはインデックス品質をチェック！

 他参考リンク集

種類
タイトル / URL


論文
GraphRAG: From Local to Global — A GraphRAG Approach to Query-Focused Summarization https://arxiv.org/abs/2403.08615


Qiita
GraphRAG をわかりやすく解説 https://qiita.com/search?q=GraphRAG


note
GraphRAG: Query-Focused Summarization のための意味理解型 RAG アプローチ https://note.com/search?q=GraphRAG


GitHub
code-index-mcp https://github.com/johnhuang316/code-index-mcp



 おわりに本記事では GraphDB + 知識グラフ と 要約インデックス という 2 つのアプローチを組み合わせ、設計書の影響分析を高精度に行う方法を紹介しました。

まずは 要約 + 簡易関係リスト で小さく試し、必要に応じて GraphDB へスケールアップすると、実装コストと効果のバランスが取りやすいはずです。
みなさんのプロジェクトでもぜひ試してみてください！質問やフィードバックはコメント欄でお待ちしています 🙌

プロジェクト	概要
GraphRAG	LLM で `(主語, 関係, 目的語)` を抽出→知識グラフを構築→コミュニティ単位に要約→統合し回答を生成
CocoIndex https://github.com/cocoindex-io/cocoindex	Markdown や設計ドキュメントからインクリメンタル／リアルタイムに Neo4j などのグラフDBへトリプレットをエクスポート可能。「エンティティ ↔ ドキュメント」の言及関係も構造化して記録できます。
LlamaIndex – KnowledgeGraphIndex	ドキュメントから LLM によって `(主語, 関係, 目的語)` のトリプレットを自動抽出し、内部の `graph_store` に保存。`KnowledgeGraphQueryEngine` を通じてグラフ構造を活用した問合せや推論が可能です。LangChain 等の LLM フレームワークとも組み合わせて Graph‑based RAG 構成ができます。

手法 / OSS	特徴
LlamaIndex – Tree Index	チャンク ➜ セクション ➜ ドキュメントへ要約を段階的に圧縮
PageIndex (VectifyAI)	PDF を論理構造に沿って自動分割し、各ノードにタイトル・ページ範囲・要約を付与
Document Summary Index	まず文書レベルで要約を比較し、関連文書だけを深掘り検索

レイヤ	Tech Stack	役割
データ層	- Git / GitHub: 設計書 (Markdown) 管理 - Neo4j Aura: 知識グラフ	ソースと関係性を一元管理
前処理	- LangChain + OpenAI GPT-4o: Entity/Relation 抽出 & 要約	ドキュメント更新時に CI ワークフローで自動処理
インデックス	- Weaviate or Qdrant: Embedding ストア - JSON/YAML: Summary/Meta	ベクトル類似度＋メタデータフィルタで高速検索
エージェント	- CrewAI + LlamaIndex Router	①変更要求を解釈 ➜ ②影響候補抽出 ➜ ③詳細見積もり生成
フロント	- Next.js + shadcn/ui	影響範囲グラフや要約を可視化、Pull Request コメント自動生成など

種類	タイトル / URL
論文	GraphRAG: From Local to Global — A GraphRAG Approach to Query-Focused Summarization https://arxiv.org/abs/2403.08615
Qiita	GraphRAG をわかりやすく解説 https://qiita.com/search?q=GraphRAG
note	GraphRAG: Query-Focused Summarization のための意味理解型 RAG アプローチ https://note.com/search?q=GraphRAG
GitHub	code-index-mcp https://github.com/johnhuang316/code-index-mcp

Accenture Japan (有志)

アクセンチュア株式会社に所属する社員有志による運営です。アクセンチュアの社員による様々な発信をまとめています。なお、投稿内容は社員個人の見解であり、所属する組織を代表するものではありません。

Discussion

maidenfortress

Yan san好,
我以前看过一篇文章，就是在构造索引时采取两级。第一级是整篇文章或者完整的段落，第二级是这篇文章或者完整段落的若干chunk，如果搜索时命中第二级某一个chunk，就查找该chunk的第一级，把相关chunk都一起返回给大模型。跟您的階層検索有类似的地方。

厳（Gen）

ありがとうございます！
ちなみにどなたです？🤭

maidenfortress

Yao です。よろしくお願いいたします。