🗒️
『LLM Night〜バーティカルAIマルチエージェントの設計ノウハウ〜』に参加したメモ
スマートラウンドでエンジニアをやっている福本です!
1/14(火)に開催された、以下の『LLM Night〜バーティカルAIマルチエージェントの設計ノウハウ〜』のイベントに参加してきたので、その個人的な勉強メモを公開します✍️
また、以下から当日のXのタイムラインを見ることも可能です👇 合わせてご参照ください!
イベント開催中のハッシュタグ#pharmax_tech_collabo
のTL 🐦
イベント内容
1. 各社LTセッション
Legal Agent社: 生成AI×法務の最前線 ~フローエンジニアリングの実装~
フローエンジニアリングの実装について
- 法務の契約書レビューの自動化を実現
- 従来3営業日かかっていたレビューを5分で完了できるように
- 工数が予測可能になったため、タイムチャージではなく固定価格での提供が実現
- AIの出力を弁護士が最終確認することで品質を担保し、ハルシネーションのリスクを排除
-
Difyを活用したワークフロー構築
- 300個(!)のAIを組み合わせて複雑な法務タスクを分解して処理
- クライアント固有の要望や事業特性を学習させ、カスタマイズされたレビューを実現
- エンジニアではない弁護士(※登壇者の朝戸さんのこと)でも実装可能な環境を構築
デモンストレーション
- NDAのレビューを各種LLM&単一プロンプトで実施し、比較検証してみた
- GPT-4:チェックポイントを意識した詳細なレビューが可能
- Claude:標準的な内容確認ができるが網羅性に課題
- Gemini:基本的なチェックは可能だが具体的な修正案の提示は弱い
- 単一プロンプトでは専門的なレビューの質が安定しないことを実証
- 長文の契約書を一度に処理すると精度が著しく低下
- 分割処理と専門化したAIの組み合わせで精度を向上
AVA Intelligence社: 生成AI×旅行!LLMを活用した旅行プラン作成やチャットbotの構築
LLMを活用した実装アプローチ
- マルチチャネルでのサービス展開
- Webサイト:目的地の検索から一気通貫のデジタルガイドブック機能を提供
- LINE:旅行に関する幅広い質問に対応。ホテルや予算など具体的な条件での検索も可能
- アプリ:ユーザーの希望を自然言語で入力するだけで30秒以内に旅程を自動生成
- 処理の最適化とアーキテクチャ
- すべてのチャネルを1つのバックエンドで処理し、保守性を向上
- Elasticsearchを活用し、複雑な旅行データの高速検索を実現
- キーワードベースでの初期振り分けで、処理の効率化を実現している
- データ品質へのこだわり
- 自社でデータベースを保有し、情報の正確性を担保
- 地方自治体や旅行予約サイトと提携し、常に最新の情報を維持
- Difyを用いてライターによるオリジナルコンテンツも作成し、独自の付加価値を提供
PharmaX社: 完全自律型AIエージェントとAgentic Workflow〜ワークフロー構築という現実解
以下の内容を話されていました👇️
エージェント設計の考え方
- AIエージェントの3つの類型を整理
- 完全自律型:情報収集、判断、アクション選択まですべて自律的に実行
- ワークフロー型:事前定義されたフローに従って処理を実行
- ハイブリッド型:定型処理はワークフロー、判断が必要な部分は自律的に対応
- エージェントの定義における視点の違い
- ユーザー目線:自動で結果が得られればエージェントとして十分
- 開発者目線:プログラムの自律性の度合いでエージェントを定義
- 両者の折衷案として「見た目は自律的だが内部はワークフロー」という解決策
- 現実的な実装の選択
- 現時点では完全自律型は技術的に時期尚早
- ワークフロー型の方が安定性とメンテナンス性に優れる
- 将来的な拡張性を考慮したハイブリッド型の検討
2. パネルディスカッション
フローエンジニアリングの評価方法
Legal Agent 朝戸さん
- 人力評価を基本としつつツールも活用
- LangSmithで処理フローの追跡と結果の分析を実施
- 弁護士による法的正確性の最終確認は必須
- 各タスクの実行結果をデータベース化して改善に活用
- 評価の課題と対策
- 法務タスクは「正解」が一つとは限らない
- クライアント固有の要望に応じた評価基準の設定が必要
- システマチックな評価方法の確立を模索中
AVA Intelligence 小峰さん
- 定量的な評価指標を設定
- 旅程生成にかかる時間(目標:30秒以内)
- 1日あたりの移動距離の最適化
- 提案された旅程の型(パターン)適合性
- 実地検証による品質確認
- 社員が実際に生成された旅程を体験
- 魅力的な旅程かどうかの主観評価も実施
- ユーザーフィードバックを評価に組み込み
PharmaX 上野さん
- 複数レイヤーで評価を実施
- LLMによる出力メッセージの自動評価
- 薬剤師の専門的観点からの正確性確認
- LangSmithによるワークフロー全体の追跡
- 具体的な評価基準
- 医療的な正確性
- ユーザーへの寄り添い方(共感性)
- 文字数や読みやすさなどの形式要件
フローエンジニアリングの分解と粒度
Legal Agent 朝戸さん
- 弁護士の思考プロセスを徹底的に分解
- 契約書の種類による分岐(NDA、業務委託、etc)
- レビューする立場の違いによる分岐(情報提供側/受領側)
- 業界特性による確認ポイントの違い
- 技術的な制約を考慮した設計
- プロンプトは2万文字以内に制限(3万文字超えると精度が著しく低下)
- 契約書の分割処理による最適化
- クライアント固有の要件は別モジュールとして管理
AVA Intelligence 小峰さん
- リアルタイム処理を前提とした設計
- 処理時間の制約から必要最小限の分岐に抑制
- キーワードベースで専門エージェントに振り分け
- レストラン、ホテルなど領域ごとに独立したエージェントを用意
- 実用的なアプローチ
- 完璧な分類よりも実用的な処理速度を重視
- 必要に応じてWeb検索との組み合わせも実施
- エラー時の人手による対応パスを用意
PharmaX 上野さん
- 業務フローを忠実に反映している
- 薬剤師の判断プロセスを詳細に言語化
- 明確な名前付けができる単位でタスクを分割
- 各タスクの責任範囲を明確に定義
- 実装上の工夫
- 会話の文脈を含めて2万文字以内に収める
- 専門用語には自動で読み仮名を付与
- エラー検出と回復処理の組み込み
3. Q&A
APIコストに関する質問
- 現在のコスト状況
- GPT-4でも1リクエスト4円程度
- 1年前と比べて大幅にコストが低下
- 処理の最適化で十分にコントロール可能
- コスト最適化の工夫
- 必要な処理の選択的実行
- 低コストモデルと高性能モデルの使い分け
- キャッシュの活用による重複処理の削減
実務者の関与について
- 設計段階からの参加が重要
- 専門家の思考プロセスを正確に反映
- エッジケースの事前把握
- 評価基準の適切な設定
- 協業のベストプラクティス
- エンジニアと専門家のペア開発
- 定期的なフィードバックループの構築
- 実務者が使いやすいツールの選定
エージェント間の依存関係
- 設計上の課題
- 分岐が複雑化すると保守が困難に
- エージェント間の整合性担保が必要
- エラー伝播の制御が重要
- 対応策
- シンプルな設計原則の徹底
- 明確な責任範囲の定義
- 適切なモニタリングとログ収集の実装
さいごに
メモはこちらで以上となります、読んで頂きありがとうございます!
イベントに登壇 & 運営頂いた皆さま、楽しい時間を提供いただきありがとうございました🙌
AI/LLMやAIエージェントについて、スマートラウンドでも色々と取り組みをしており、とても参考になりました。今後も色んな方と知見を交換していきたいので、ご興味ある方はDMや採用ページからぜひご連絡くださいー!
Discussion