🐷

医療分野におけるRAGシステム実装の技術的深掘り

2025/03/31に公開

 はじめに生成AIの発展に伴い、検索と生成を組み合わせたRAG（Retrieval-Augmented Generation）システムが注目を集めています。特に医療分野では、情報の正確性と最新性が極めて重要であり、RAGの応用が急速に広がっています。本記事では、実際の医療RAGシステム構築の技術的詳細と得られた知見を共有します。

 RAGパイプラインの設計と構築
 疎結合アーキテクチャの重要性RAGシステムを設計する際、Retriever（検索）とGenerator（生成）を疎結合に構成することで、各コンポーネントの独立した最適化と進化が可能になります。実装では以下の利点が得られました：

独立したスケーリング: 検索と生成で異なるリソース要件に対応可能

コンポーネント交換の容易さ: 新しい検索エンジンやLLMモデルへの切り替えがシンプル

テスト容易性: 検索精度と生成品質を分離して評価可能
特に医療分野では、専門用語や略語の扱いが複雑なため、検索エンジンの個別最適化が重要でした。共通インターフェースとメッセージキューを活用した設計により、システム全体の柔軟性と保守性が大幅に向上しています。

 ハイブリッド検索の実装単一の検索手法ではカバーしきれない医療クエリの多様性に対応するため、Faissによるベクトル検索とElasticSearchによるキーワード検索を併用したハイブリッドアプローチを採用しました：
Faissの役割:
高次元ベクトルの効率的な類似度検索
セマンティック検索（意味的関連性）の実現
HNSWアルゴリズムによる高速な近似最近傍検索
ElasticSearchの役割:
構造化・半構造化データのテキスト検索
キーワードマッチングと正規表現検索
メタデータによるフィルタリングと集計
使い分けの基準としては、専門用語や特定のエンティティを含む精緻な検索にはElasticSearch、症状の説明など曖昧な表現や言い換えを含むクエリにはFaissというように、クエリの性質に応じた振り分けを行っています。

 エンベディングモデルの選定と最適化
 ドメイン特化型モデルの優位性医療テキストの特殊性を考慮し、一般的なSBERTではなく、ClinicalBERTベースの埋め込みモデルを選定しました。具体的な選定理由と効果は以下の通りです：

医療テキスト事前学習: 大規模な医療テキスト（MIMIC-IIIなど）で学習済み

専門用語の理解: 同義表現や略語（「心不全」「CHF」「うっ血性心不全」など）の適切な関連付け

文脈依存性理解: 同じ用語が文脈によって異なる意味を持つ場合の区別
評価では、SBERTと比較して専門用語検索で15%以上の適合率向上を達成し、特に略語と正式名称の相互検索で顕著な改善を確認しました。さらに社内データで追加微調整を行うことで、より特化した性能を実現しています。

 HNSW検索アルゴリズムの調整約500万のベクトルエンベディングを効率的に検索するため、HNSW（Hierarchical Navigable Small World）アルゴリズムを採用し、以下のパラメータ調整を実施しました：

M=48: 各ノードの最大接続数を最適化（Recall@10が12%向上）

efConstruction=400: インデックス構築時の探索幅を調整

動的efSearch: クエリの重要度に応じて40〜400の範囲で調整

8ビット量子化: メモリ使用量を約75%削減しつつ、精度低下は最小限
これらの最適化により、300ms以内という厳しいレイテンシ要件を満たしながら、高い検索精度を実現しています。特に医療クエリの多様性に対応するため、クエリタイプに応じた動的パラメータ調整が効果的でした。

 チャンキング戦略と文脈保持の工夫
 段落単位チャンキングとセマンティック分割医療文書では文脈の保持が極めて重要です。診断結果や所見が分断されると、意味が変わったり不正確になるリスクがあります。そのため、以下のアプローチを採用しました：
階層的チャンキング:
レベル1: セクション単位の分割（「主訴」「現病歴」など）
レベル2: 段落単位の分割（意味的なまとまり）
レベル3: 必要に応じた文単位の細分化
セマンティック分割点の検出:
単純な文字数ではなく、内容の意味的区切りで分割
「鑑別診断」などの項目を複数チャンクに分割しないよう制御
メタデータの保持:
各チャンクに元の文書ID、セクション情報、位置などを付与
検索時に文脈を復元できるよう親子関係を維持

 コンテキスト重複率の最適化チャンク間の情報連続性を確保するため、最適な重複率を実験的に導き出しました：

重複なし: 関連情報取得率が28%低下

30%重複: コストと性能のバランスが最適

50%以上: ストレージコスト増大に対して限界的改善のみ
これを受けて、文書の特性に応じた適応的重複戦略を実装：
短いセクション（100トークン未満）: 重複なし
標準セクション: 30%重複
複雑な診断部分: 最大50%重複
さらに、重複部分のエンベディング計算時に重み係数を下げることで、検索時の新情報優先度を高めています。この最適化により、LLMの限られたコンテキストウィンドウを効率的に使用できるようになりました。

 生成プロンプトの設計と最適化
 Context-aware型プロンプトの優位性生成部分のプロンプト設計において、Answer-only型とContext-aware型を徹底比較した結果、医療領域ではContext-aware型が大きく優れていることがわかりました：


評価指標
Answer-only型
Context-aware型
差異


事実的正確性
72%
91%
+19%

ハルシネーション率
31%
8%
-23%

情報網羅性
68%
81%
+13%

出典追跡可能性
12%
93%
+81%

Context-aware型では、「検索結果に情報がない場合は推測しない」「各情報源を明示する」などの明確な指示により、特に複雑な医療質問における回答品質が大幅に向上しました。

 Cite-and-explainプロンプト構造情報の正確性と透明性を両立させるため、独自のCite-and-explainプロンプト構造を開発しました：
あなたは医療情報アシスタントです。以下の手順で回答を構成してください：

1. 与えられた情報源から関連情報を特定する
2. 各情報を引用する際は [出典番号] を明示する
3. 引用した情報を医学的に正確に説明する
4. 複数の情報源を統合する場合は、それらの関係性を明確にする
5. 情報が不足している場合は、その旨を明記し推測しない
このアプローチにより、単なる引用だけでなく、その情報の意味や重要性の説明も含めることができ、医療専門家による評価で情報の信頼性が35%向上、エンドユーザーの理解度が28%向上するなどの効果を確認しました。

 検索多様性と制御の最適化
 MMR（Maximal Marginal Relevance）による多様性確保医療分野では、同じ情報の繰り返しよりも、異なる観点からの情報提供が重要です。そのため、MMRアルゴリズムを実装し、関連性と多様性のバランスを調整しました：
MMR = λ * sim(q,d) - (1-λ) * max(sim(d,dj))
λ値の動的調整: クエリタイプに応じて0.3〜0.9の範囲で自動調整
高λ値: 事実確認型クエリでの関連性優先
低λ値: 「治療オプション」などの多様な情報が必要なクエリ
この最適化により、情報の多様性スコアが47%向上し、特に「疾患の治療オプション」「薬剤の選択肢」など複数の観点が重要なクエリで効果を発揮しました。また、限られたLLMコンテキストウィンドウ内での情報効率も35%向上しています。

 セクション単位での検索制御医療文書の特性を活かし、クエリの性質に応じた検索範囲の最適化を実装しました：
クエリタイプ別のセクション制限:
症状関連クエリ: 「主訴」「現病歴」セクション優先
治療関連クエリ: 「治療計画」「処方」セクション優先
検査関連クエリ: 「検査結果」「検査所見」セクション優先
二段階検索アプローチ:
第一段階: セクション限定検索
第二段階: 情報不足時に全体検索で補完
この実装により、クエリタイプに応じて25-31%の検索精度向上を達成し、検索空間の最大80%削減、レイテンシの平均35%改善など、効率面でも大きな効果を得られました。

 今後の展望と取り組み現在、RAG技術のさらなる高度化に向けて、以下のような取り組みを進めています：
マルチモーダルRAGの拡張:
医療画像（X線、CT、MRI）と診断レポートの統合検索
RadiologyBERT系モデルによる画像-テキスト埋め込み統合
時間的文脈を考慮したRAG:
患者の経時データ（時系列検査値など）の適切な処理
「悪化」「改善」などの時間的変化クエリへの対応
推論拡張RAG:
検索結果に基づく論理推論の組み込み
ReAct（推論と行動の繰り返し）パターンの医療特化版開発
長期的な発展方向としては、複数の専門エージェントが協調するエージェント型RAG、パーソナライズド医療RAG、説明可能性の向上などがあります。最終的には、単なる情報検索と生成を超えて、医療専門家の思考プロセスを支援し、複雑な医療判断の文脈を理解できるシステムを目指しています。

 まとめ医療分野でのRAGシステム構築は、一般的なRAGとは異なる多くの技術的挑戦を含んでいます。本記事で紹介した各種最適化テクニックは、他の専門分野のRAG実装にも応用可能な知見を含んでいます。検索と生成の統合は今後も進化を続け、より高度な知識支援システムへと発展していくでしょう。特に医療分野では、正確性と透明性を両立させながら、専門家の意思決定を支援するツールとしての価値を高めていくことが重要だと考えています。

評価指標	Answer-only型	Context-aware型	差異
事実的正確性	72%	91%	+19%
ハルシネーション率	31%	8%	-23%
情報網羅性	68%	81%	+13%
出典追跡可能性	12%	93%	+81%

はじめに

RAGパイプラインの設計と構築

疎結合アーキテクチャの重要性

ハイブリッド検索の実装

エンベディングモデルの選定と最適化

ドメイン特化型モデルの優位性

HNSW検索アルゴリズムの調整

チャンキング戦略と文脈保持の工夫

段落単位チャンキングとセマンティック分割

コンテキスト重複率の最適化

生成プロンプトの設計と最適化

Context-aware型プロンプトの優位性

Cite-and-explainプロンプト構造

検索多様性と制御の最適化

MMR（Maximal Marginal Relevance）による多様性確保

セクション単位での検索制御

今後の展望と取り組み

まとめ

Discussion