🗒️

『LLM Night〜バーティカルAIマルチエージェントの設計ノウハウ〜』に参加したメモ

2025/01/15に公開

スマートラウンドでエンジニアをやっている福本です!

1/14(火)に開催された、以下の『LLM Night〜バーティカルAIマルチエージェントの設計ノウハウ〜』のイベントに参加してきたので、その個人的な勉強メモを公開します✍️

https://yojo.connpass.com/event/339937/

また、以下から当日のXのタイムラインを見ることも可能です👇 合わせてご参照ください!

イベント開催中のハッシュタグ#pharmax_tech_collaboのTL 🐦

イベント内容

1. 各社LTセッション

フローエンジニアリングの実装について

  • 法務の契約書レビューの自動化を実現
    • 従来3営業日かかっていたレビューを5分で完了できるように
    • 工数が予測可能になったため、タイムチャージではなく固定価格での提供が実現
    • AIの出力を弁護士が最終確認することで品質を担保し、ハルシネーションのリスクを排除
  • Difyを活用したワークフロー構築
    • 300個(!)のAIを組み合わせて複雑な法務タスクを分解して処理
    • クライアント固有の要望や事業特性を学習させ、カスタマイズされたレビューを実現
    • エンジニアではない弁護士(※登壇者の朝戸さんのこと)でも実装可能な環境を構築

デモンストレーション

  • NDAのレビューを各種LLM&単一プロンプトで実施し、比較検証してみた
    • GPT-4:チェックポイントを意識した詳細なレビューが可能
    • Claude:標準的な内容確認ができるが網羅性に課題
    • Gemini:基本的なチェックは可能だが具体的な修正案の提示は弱い
  • 単一プロンプトでは専門的なレビューの質が安定しないことを実証
    • 長文の契約書を一度に処理すると精度が著しく低下
    • 分割処理と専門化したAIの組み合わせで精度を向上

AVA Intelligence社: 生成AI×旅行!LLMを活用した旅行プラン作成やチャットbotの構築

LLMを活用した実装アプローチ

  • マルチチャネルでのサービス展開
    • Webサイト:目的地の検索から一気通貫のデジタルガイドブック機能を提供
    • LINE:旅行に関する幅広い質問に対応。ホテルや予算など具体的な条件での検索も可能
    • アプリ:ユーザーの希望を自然言語で入力するだけで30秒以内に旅程を自動生成
  • 処理の最適化とアーキテクチャ
    • すべてのチャネルを1つのバックエンドで処理し、保守性を向上
    • Elasticsearchを活用し、複雑な旅行データの高速検索を実現
    • キーワードベースでの初期振り分けで、処理の効率化を実現している
  • データ品質へのこだわり
    • 自社でデータベースを保有し、情報の正確性を担保
    • 地方自治体や旅行予約サイトと提携し、常に最新の情報を維持
    • Difyを用いてライターによるオリジナルコンテンツも作成し、独自の付加価値を提供

PharmaX社: 完全自律型AIエージェントとAgentic Workflow〜ワークフロー構築という現実解

以下の内容を話されていました👇️

https://zenn.dev/pharmax/articles/d1d3695e4114c0

エージェント設計の考え方

  • AIエージェントの3つの類型を整理
    • 完全自律型:情報収集、判断、アクション選択まですべて自律的に実行
    • ワークフロー型:事前定義されたフローに従って処理を実行
    • ハイブリッド型:定型処理はワークフロー、判断が必要な部分は自律的に対応
  • エージェントの定義における視点の違い
    • ユーザー目線:自動で結果が得られればエージェントとして十分
    • 開発者目線:プログラムの自律性の度合いでエージェントを定義
    • 両者の折衷案として「見た目は自律的だが内部はワークフロー」という解決策
  • 現実的な実装の選択
    • 現時点では完全自律型は技術的に時期尚早
    • ワークフロー型の方が安定性とメンテナンス性に優れる
    • 将来的な拡張性を考慮したハイブリッド型の検討

2. パネルディスカッション

フローエンジニアリングの評価方法

  • 人力評価を基本としつつツールも活用
    • LangSmithで処理フローの追跡と結果の分析を実施
    • 弁護士による法的正確性の最終確認は必須
    • 各タスクの実行結果をデータベース化して改善に活用
  • 評価の課題と対策
    • 法務タスクは「正解」が一つとは限らない
    • クライアント固有の要望に応じた評価基準の設定が必要
    • システマチックな評価方法の確立を模索中

AVA Intelligence 小峰さん

  • 定量的な評価指標を設定
    • 旅程生成にかかる時間(目標:30秒以内)
    • 1日あたりの移動距離の最適化
    • 提案された旅程の型(パターン)適合性
  • 実地検証による品質確認
    • 社員が実際に生成された旅程を体験
    • 魅力的な旅程かどうかの主観評価も実施
    • ユーザーフィードバックを評価に組み込み

PharmaX 上野さん

  • 複数レイヤーで評価を実施
    • LLMによる出力メッセージの自動評価
    • 薬剤師の専門的観点からの正確性確認
    • LangSmithによるワークフロー全体の追跡
  • 具体的な評価基準
    • 医療的な正確性
    • ユーザーへの寄り添い方(共感性)
    • 文字数や読みやすさなどの形式要件

フローエンジニアリングの分解と粒度

  • 弁護士の思考プロセスを徹底的に分解
    • 契約書の種類による分岐(NDA、業務委託、etc)
    • レビューする立場の違いによる分岐(情報提供側/受領側)
    • 業界特性による確認ポイントの違い
  • 技術的な制約を考慮した設計
    • プロンプトは2万文字以内に制限(3万文字超えると精度が著しく低下)
    • 契約書の分割処理による最適化
    • クライアント固有の要件は別モジュールとして管理

AVA Intelligence 小峰さん

  • リアルタイム処理を前提とした設計
    • 処理時間の制約から必要最小限の分岐に抑制
    • キーワードベースで専門エージェントに振り分け
    • レストラン、ホテルなど領域ごとに独立したエージェントを用意
  • 実用的なアプローチ
    • 完璧な分類よりも実用的な処理速度を重視
    • 必要に応じてWeb検索との組み合わせも実施
    • エラー時の人手による対応パスを用意

PharmaX 上野さん

  • 業務フローを忠実に反映している
    • 薬剤師の判断プロセスを詳細に言語化
    • 明確な名前付けができる単位でタスクを分割
    • 各タスクの責任範囲を明確に定義
  • 実装上の工夫
    • 会話の文脈を含めて2万文字以内に収める
    • 専門用語には自動で読み仮名を付与
    • エラー検出と回復処理の組み込み

3. Q&A

APIコストに関する質問

  • 現在のコスト状況
    • GPT-4でも1リクエスト4円程度
    • 1年前と比べて大幅にコストが低下
    • 処理の最適化で十分にコントロール可能
  • コスト最適化の工夫
    • 必要な処理の選択的実行
    • 低コストモデルと高性能モデルの使い分け
    • キャッシュの活用による重複処理の削減

実務者の関与について

  • 設計段階からの参加が重要
    • 専門家の思考プロセスを正確に反映
    • エッジケースの事前把握
    • 評価基準の適切な設定
  • 協業のベストプラクティス
    • エンジニアと専門家のペア開発
    • 定期的なフィードバックループの構築
    • 実務者が使いやすいツールの選定

エージェント間の依存関係

  • 設計上の課題
    • 分岐が複雑化すると保守が困難に
    • エージェント間の整合性担保が必要
    • エラー伝播の制御が重要
  • 対応策
    • シンプルな設計原則の徹底
    • 明確な責任範囲の定義
    • 適切なモニタリングとログ収集の実装

さいごに

メモはこちらで以上となります、読んで頂きありがとうございます!
イベントに登壇 & 運営頂いた皆さま、楽しい時間を提供いただきありがとうございました🙌

AI/LLMやAIエージェントについて、スマートラウンドでも色々と取り組みをしており、とても参考になりました。今後も色んな方と知見を交換していきたいので、ご興味ある方はDMや採用ページからぜひご連絡くださいー!

スマートラウンド テックブログ

Discussion