🔎

FAQゼロの現場で“考えるチャットボット”を育てるまで

2025/04/18に公開

 ── バニラRAG卒業宣言。GraphRAG × LangGraph でノウハウ推論へ挑む 90日プラン🛠 この記事は“ロードマップ公開”フェーズです。 まだコードは動いていません。


ですが 90 日後、必ず「やってみた編」を Zenn に投下すると宣言します。
もしあなたが…
「FAQ がそもそも無い現場」で RAG が詰んだ
GraphRAG / LangGraph の実務像が掴めない
検索ではなく“推論”できるボットを夢見ている
そんな仲間なら、ぜひブックマークして経過を見届けてください。

 1. モヤモヤの正体 ―― FAQも整備できないのに RAG が流行る矛盾RAG を試した同僚が首をひねる——
「“その質問は登録がありません”って、チャットボットなのに冷たいね」
問題はシンプル：FAQ が無い／散在しているのに、ベクトル検索だけでは回答できない。Valprovia (2025) 調査によれば 67％ の組織が“ドキュメント不足” を最初の壁に挙げています。
つまりバニラRAGは 「FAQが整っている世界線」 を前提にしている。現実は違う。だからこそ GraphRAG と LangGraph Agent に賭けてみる価値がある、と考えました。

 2. 目指すユーザー体験👩‍💻 ユーザ : 画像が荒い。もっとキレイにしたい
🤖 Bot    : config.toml の quality を 60 → 80 に変更してください。
            理由  : JPEG は値を上げるほど画質優先になります。
            手順  : ① ファイルを開く → ② パラメータを変更 → ③ 再起動
「設定値」+「理由・手順・注意点」 まで、FAQゼロでも導出する。これがゴールです。

 3. 技術プラン：ベクトルだけに頼らない 4層構成

レイヤ
役割
採用OSS/SaaS


① 意味抽出
文書→ (S, P, O)トリプル
LangChain QAGenerationChain + GPT‑4o

② Knowledge Graph
因果・手順をエッジで保持
Neo4j Aura Free (Cypher)

③ Hybrid Retrieval
高リコール + 高精度
ChromaDB + bge‑reranker-large

④ 推論エージェント
Python Tool / API を呼び出し CoT 統合
LangGraph（StateGraph）


 4. “まだ動いていない” ロードマップ公開

Phase
週
ゴール
Deliverable


0
1
ドメイン決定& KPI 設計
Notion 1枚企画書

1
2‑3
トリプル抽出PoC

triples.csv / 精度メモ

2
4‑5
GraphRAG 基盤構築
graphrag_chain.ipynb

3
6
Hybrid Retrieval + Rerank
diffグラフ＆Latency計測

4
7‑8
LangGraph Agent + Tool
demo動画 / stategraph.png

5
9
Docker & README 化
Private GitHub repo

6
10‑12
実践編記事 & 公開リポ
Precision≥0.79 / Lat≤1s

🎯 KPI（暫定）：Precision+10pt / Latency P95<1s / Token削減20％

 5. 既存 Zenn 記事との違いは？FAQゼロ問題を主題に据える

GraphRAG × LangGraph × Rerank をひとつの記事で試す

評価指標＆改善プロセスを公開 —— 成功でも失敗でもブログにさらす

 6. 今抱えている“宿題”
トリプル抽出誤爆：信頼度の閾値はいくつが適切？

グラフ更新：日次バッチ vs ストリーム、どちらが運用コスト低い？

PIIマスキング：抽出時 or 推論時、どちらが漏れにくい？
👉 コメントでアイデアや経験談をもらえると泣いて喜びます！

 7. 読みながら参考にしたリンク集Microsoft GraphRAG Blog — https://aka.ms/graphrag
AWS GraphRAG Toolkit (2025‑02) — https://aws.amazon.com/jp/blogs/news/introducing-the-graphrag-toolkit/
SymAgent arXiv 2502.03283 — https://arxiv.org/abs/2502.03283
LangGraph Docs — https://langgraph.readthedocs.io/
bge‑reranker Paper — https://arxiv.org/abs/2311.07838

 8. 次回予告#1 トリプル抽出編 – “30 行 Python”で S‑P‑O を抜き、精度を測る
読んでくださりありがとうございます。次回はコードが登場しますのでお楽しみに！
© 2025 @y0uhey — 再利用自由（CC‑BY 4.0）、クレジットだけお願いします。

レイヤ	役割	採用OSS/SaaS
① 意味抽出	文書→ `(S, P, O)`トリプル	LangChain `QAGenerationChain` + GPT‑4o
② Knowledge Graph	因果・手順をエッジで保持	Neo4j Aura Free (Cypher)
③ Hybrid Retrieval	高リコール + 高精度	ChromaDB + bge‑reranker-large
④ 推論エージェント	Python Tool / API を呼び出し CoT 統合	LangGraph（StateGraph）

Phase	週	ゴール	Deliverable
0	1	ドメイン決定& KPI 設計	Notion 1枚企画書
1	2‑3	トリプル抽出PoC	`triples.csv` / 精度メモ
2	4‑5	GraphRAG 基盤構築	`graphrag_chain.ipynb`
3	6	Hybrid Retrieval + Rerank	diffグラフ＆Latency計測
4	7‑8	LangGraph Agent + Tool	demo動画 / stategraph.png
5	9	Docker & README 化	Private GitHub repo
6	10‑12	実践編記事 & 公開リポ	Precision≥0.79 / Lat≤1s

── バニラRAG卒業宣言。GraphRAG × LangGraph でノウハウ推論へ挑む 90日プラン

1. モヤモヤの正体 ―― FAQも整備できないのに RAG が流行る矛盾

2. 目指すユーザー体験

3. 技術プラン：ベクトルだけに頼らない 4層構成

4. “まだ動いていない” ロードマップ公開

5. 既存 Zenn 記事との違いは？

6. 今抱えている“宿題”

7. 読みながら参考にしたリンク集

8. 次回予告

Discussion