🎃

生成AI導入がうまくいかない理由と、現場で効く5つの対応策

2025/11/09に公開

 はじめに近年、生成AI（LLM / RAG / マルチモーダル / エージェント）の活用は多くの業務領域に広がりつつあります。しかし、導入が進む一方で、期待した成果を得られず苦労するケースも少なくありません。現場で頻出する代表的な困りごととして、以下の3点が挙げられます。本記事では、これらの困りごとに対する実務的な対応策をまとめます。

困りごと
作ったけど使われない
期待している回答や要約が生成されない

ハルシネーションが生じる

 対応策１：要求を具体化する生成AIは、目的が曖昧なまま導入すると効果を発揮しにくいです。「作ったけど使われない」問題の多くは、目的・成果・評価方法が定義されていないことが原因と思われます。
要求定義で明確にすべきこと

評価方法については、例えば以下のような方法が挙げられます。
AI導入前後の所要時間の差を計測する
新人〜ベテランの様々なスキルの人の作業結果と比較する
定量化が難しい場合は、品質安定や属人化排除など定性的効果も可視化する
評価には様々な方法がありますが、実務では「人が作成した場合の成果」を基準とするケースがほとんどです。現状では、この比較に必要なデータ収集や作業ログの整備は自動化が難しく、一定の手間がかかります。しかし、この評価の土台づくりが曖昧なままでは、成果の実感や改善観点が得られず、導入が形骸化してしまう恐れがあります。したがって、「人が行った場合の業務プロセスとその結果」を丁寧に確認しておくことが、結果的に最短ルートになります。
また、評価指標は「既存の指標から選ぶ」という発想ではなく、解きたい課題に合わせて設計することが重要です。例えば「関連文書を選定するタスク」であれば、「選んだ文書の中に正解が含まれているか」「どの程度まで文書を絞り込めているか」の2軸で評価すると実務に即した評価になります。

 対応策２：モデルを変更するモデルを変更することは、生成AIの品質改善において最も効果が大きい手段の一つです。同じプロンプト・同じデータでも、モデルの特性によって精度・安定性・回答スタイルは大きく変わります。そのため、「どのモデルが目的に合っているか」を見極めることが重要です。

選定時の観点

比較指標

LLMは Artificial Analysis Intelligence Index が参考になります。embeddingモデルに関しては、RAGで使用する場合は「検索用途に強い埋め込み（semantic retrieval向け）」か「分類・クラスタリングに強い埋め込み」かで選ぶべきモデルが異なります。

学習言語と利用言語が一致しているか

例えば、日本語文書検索を目的とする場合は 日本語に最適化されたEmbeddingモデル（nomic-embed-textなど）やLLM（ELYZAなど）が精度・品質を左右します。

運用条件

「お客様環境で継続的に運用できるか」「処理速度と利用コストのバランス」などを確認します。

 対応策３：AIの活用方法に則して改善を図る
 対応策3-1：プロンプトの設計を工夫するプロンプトはAIにとって「仕様書」です。曖昧にすると曖昧な返答が返ります。以下のように工夫することで、回答の品質が向上・安定することが期待できます。

マークダウン形式で構造化する

情報の役割が明確になり、モデルが文章の構造を理解しやすくなります。

箇条書き など短文で記載する

い文章よりも「要点単位」で提示する方が、誤解や意図のずれが起こりにくくなります。長文になりすぎると制御しにくくなるので、指示しなくても期待通りの挙動をする事項については敢えて記載しないことを推奨します。

主観的な表現や曖昧表現を避ける

「良い感じに」「丁寧に」などの抽象語は解釈がブレるため、「語尾はですます調」「3文以内」など具体的に示します。

 対応策3-2：RAGの設計を工夫するRAGは、ただ検索対象の文書を渡すだけでは上手くいかない場合があります。以下の工夫をすることで、品質が改善する場合があります。

文書の形式を工夫する

モデルによっては、同じ内容の文書でもexcelよりもPDFの方が適切に認識されやすいなどの傾向があります。

参照文書にタグ付けをする

事前に付けたタグをもとに、不要な情報を参照させないことで、誤答や回答の揺らぎが減少することが期待されます。

 対応策3-3：マルチモーダルの設計を工夫する画像だけを入力するよりも、説明文をセットにすることで品質が向上します。モデルに「前提」を渡すことが精度改善の鍵となります。

 対応策3-4：エージェントの設計を工夫する複数工程をAIに任せる場合は、役割分担を明確にします。「分割 → 判断 → 実行」などの構造化により、品質と再現性が向上します。

役割例
機能

調査担当
情報の収集・抽出

要約担当
要点整理と統合

レビュー担当
一貫性・誤りの検証

 対応策3-5：（LLM使用時全般）LLMの思考過程を可視化するLLMのチューニングを行う際は、LangChainなどを用いてLLMの思考過程を可視化すると、どの部分で判断がぶれているのか、どの情報が不足しているのかが把握しやすくなります。「不適切な前提認識」「推理・比較の弱さ」など、改善すべき箇所が明確になり、効果的なプロンプト調整や追加データ投入ができるようになります。

参考：実験管理とデータサイエンス案件のTips

 対応策４：入力する文書の長さを調整する生成AIは、一度に処理する情報量が多すぎると、重要な箇所を見落としたり、文脈の整合性が崩れたりすることがあります。特に「長文がそのまま入力されている状態」では、回答品質が安定しにくくなります。そこで、モデルが理解しやすい単位に分解して入力することが有効です。

コンテンツを文字数や意味単位でチャンク化する

参考：長文を扱う方法とチャンク分割の工夫
最後の文脈が重要な場合は「逆順入力」も有効
長文の場合、先に要約（不要な情報を排除）してから入力することが有効な場合がある

 対応策５：UIでユーザーの期待値をコントロールするハルシネーションは完全に防ぐことは困難です。そこで、UIで「参考程度にご利用ください」「原文を必ず確認してください」などの、利用上の前提を明示することが有効な場合があります。技術対策だけではなく、認知的リスクマネジメントも重要です。

 おわりに生成AIの活用は、単に「モデルを使うかどうか」ではなく、目的の明確化 → プロンプト設計 → 知識の参照方法 → モデル選定 → UI設計という一連のプロセスで最適化していく取り組みです。本記事で紹介した対応策は、どれか1つで劇的に改善するというより、複数の工夫の積み重ねによって安定性と再現性が高まるものです。
導入初期は試行錯誤が続きますが、評価指標・文書構造・モデル特性を理解しながら改善を続けることで、業務にフィットした「使われる生成AI」へと近づいていきます。ぜひ、現場の実態に合わせて少しずつ取り入れてみてください。