🐧

Dify × HyDE法:チャットボットに「察する力」を与える実装ノート

に公開

✅ この記事を読むとできること

本記事では、社内AIチャットボットの検索ヒット率が低いという課題に対し、HyDE (Hypothetical Document Embeddings)法をDifyで実装することで、どのように解決に導くかを解説します。

曖昧な自然言語による質問からでも、意図を汲み取って適切な社内ナレッジを提示する実装方法を紹介します。

本記事を読むと以下四点について学ぶことができます。

  • ビジネスインパクト: なぜHyDEが「検索できない」問題を解決し、従業員の自己解決率向上に繋がるのかを理解できます。
  • プロンプト設計: 検索精度を最大化するHyDE用プロンプトの具体的な設計思想とテンプレートを得られます。
  • システム構成: HyDEと従来のキーワード検索を組み合わせ、網羅性と精度を両立させるハイブリッド検索のアーキテクチャを学べます。
  • 実装ノウハウ: 導入効果を最大化するための、実用的なTipsと注意点を把握できます。

🏁 はじめに:チャットボットに「読解力」はない

LLMを活用した社内チャットボットは、従業員からの問い合わせ対応を自動化し、生産性向上に貢献します。
しかし、その効果はナレッジベースの検索精度に大きく依存します。特に、ユーザーの質問に含まれる口語表現や略語と、マニュアルに記載されている公式な専門用語との間に意味的な乖離がある場合、ナレッジ検索は失敗しがちです。その結果、チャットボットがユーザーの質問の意図をくみ取れず回答できないケースとして分類されてしまいます。

課題例:

ユーザーの質問:「打刻修正ってどこで申請するの?」
ナレッジ内の表現: 「時刻記録の訂正は、勤怠管理システムから申請してください」
チャットボットの応答: 「ご質問に関連する情報は見つかりませんでした。」

この「言葉の壁」が原因で自己解決に至らず、結局は担当部署への問い合わせが発生する、という課題は多くの企業で共通しています。
本稿で紹介するHyDE(Hypothetical Document Embeddings)法は、この課題を解決する強力なアプローチです。


HyDE法とは何か?

HyDE法は、検索時に質問をそのまま使うのではなく、
もしこの質問に完璧に答えるとしたら、どんな一文になるか?」をAIに考えさせてから検索する手法です。

これにより、質問に含まれるあいまいな表現や社内用語を、より検索に適した文構造に変換でき、
ドキュメントに書いてある内容と“噛み合う”確率を高めることができます。


仮回答生成プロンプトの例(HyDE用)

以下は、実際に使用しているHyDE文生成用プロンプトの例です。

prompt:
  title: "仮回答生成プロンプト"
  description: |
    # 仮想的な完璧回答を生成します。
    ## STEP1: ユーザーの質問を読み取り、ナレッジベースで検索するのに最も適した模範的な回答文を一文で出力してください。
    ## STEP2: 回答は事実に基づいた明確で簡潔な形式とし、検索されやすい語彙・構文を含めてください。
    ## STEP3: あくまで検索補助のため、丁寧語や補足は不要です。検索クエリとして適するよう、断定的な文体で簡潔にまとめてください。
    ## STEP4: 質問内に意味が不明な用語(例:略語、社内制度名、システム名など)が含まれる場合、それを変形せず**そのまま使ってください**。推測による言い換えや補足は不要です。
    ## 例:
    ### 入力: 「日本の首都は?」
    ### 出力: 「日本の首都は東京である。」

    以下の質問に対して、HyDE用の理想的な仮想回答を生成してください。

input:
  data: "~~"

📝 各STEPのポイント

各ステップ以下の内容を満たすように明確に自然言語で指示しています。

  • STEP1
    ユーザーの質問から、ナレッジ検索でヒットしやすい理想的な仮想回答文」を一文で出力します。

  • STEP2
    回答文は曖昧な表現を避け、明確かつ簡潔に。検索エンジンがマッチしやすい構文と語彙を使うのがポイントです。

  • STEP3
    あくまで検索補助用なので、敬語や補足情報は不要です。「○○である」「○○に記載されている」など断定形でまとめます。

  • STEP4
    質問文に含まれる略語・社内制度名・システム名などは、変形せずそのまま使うこと。補足や言い換えはNGです。

🧠 なぜこれが効くのか?

通常の質問文よりも、仮想的な回答文”の方が、文書と意味的にマッチしやすくなります。
HyDE法ではこの変換を行うことで、Embedding検索のヒット率が大幅に向上します。

検索に強い構文で、文脈理解の幅を広げましょう。


HyDEを使うと何が変わるのか?

❌ HyDEなしの場合:キーワード検索の限界

ユーザーの質問: 「勤怠システムの残業申請はどこから?」
検索クエリ(ベクトル化される文字列): 「勤怠システム 残業申請 どこ」
検索結果: ヒットせず
チャットボットの回答:「関連する情報が見つかりませんでした。」


✅ HyDEありの場合:意味ベース検索への拡張

ユーザーの質問: 「勤怠システムの残業申請はどこから?」
LLMが生成する仮想回答(HyDE文):「勤怠システムにおける時間外労働の申請は、社内ポータルの業務マニュアルに記載の手順に従って行います。」
検索クエリ(ベクトル化される文字列): 上記のHyDE文
チャットボットの回答:「時間外労働の申請ですね。社内ポータル → マニュアル → 勤怠システム編 第4章『時間外労働の申請手順』をご確認ください。」


通常検索との併用設計

HyDEは強力ですが、万能ではありません。例えば、生成される仮想回答が必ずしも的確とは限らず、逆にノイズになる可能性もゼロではありません。また、ユーザーの質問が既に検索に適したキーワードを含んでいる場合、HyDEは冗長なプロセスとなります。

そこで、実運用ではHyDE検索と従来検索のハイブリッド構成を推奨します。

【推奨アーキテクチャ例】

フロー解説:

  1. 第一段階(HyDE検索): まず、ユーザーの質問から仮想回答を生成し、ベクトル検索を実行します。
  2. 信頼度評価: 検索結果の類似度スコアが一定の閾値を超えた場合、その情報を基に回答を生成します。
  3. 第二段階(フォールバック): 閾値に満たない場合、HyDE検索は失敗とみなし、ユーザーの元の質問を直接ベクトル化して再検索(従来検索)を実行します。

この構成により、HyDEの「意図を汲み取る力」と従来検索の「キーワードに対する忠実性」を両立させ、ロバストな検索システムを構築できます。


実装の注意点

  • HyDE文は1文限定:長文はEmbedding精度が下がる可能性があるため、簡潔な一文で。
  • 「言い換え禁止」ルールの明示:プロンプト内で、略語や社内用語は変形せず使用するよう明記。
  • 実在の用語はそのまま使う:例:RPA申請, K-time, PJTコードなどを勝手に言い換えない。

🏁 まとめ:HyDE法で「察する検索力」をチャットボットに

HyDEの実装は、社内チャットボットを単なる「Q&Aツール」から、従業員の自己解決を促進し、業務効率を本質的に改善する「インテリジェント・ナレッジアシスタント」へと昇華させます。

「ナレッジはあるのに、検索でヒットしない」という、ナレッジマネジメントにおける根深い課題。この"ラストワンマイル"を埋める技術として、HyDEは極めて有効な選択肢です。

問い合わせ対応工数の削減、そして従業員一人ひとりの生産性向上。その実現に向け、貴社のチャットボットに「意図を先読みする検索能力」を実装することを、強く推奨します。


参考文献・関連リンク

UPGRADE tech blog

Discussion