『SmartHR AI tech talk#1 ── 実サービスでのAI利用のリアル』に参加してみた📝

SmartHR AI tech talk#1 ── 実サービスでのAI利用のリアル

 マルチモーダルLLMによるOCRの検証 by SmartHR
 登壇者：ryopenguin | ryo kaneoka (@ryopenguin)さんhttps://x.com/ryopenguin

 SmartHR AI チーム関連情報https://smarthr.jp/release/20250212_ai/
https://tech.smarthr.jp/entry/raise-gdp-with-ai
https://smarthr.co.jp/ai-application-policy/
https://tech.smarthr.jp/entry/ai-matome

 SmartHRのAIプロダクトの取り組み📝

 プロジェクトの流れ・全体像📝

 1. 課題と要求/制約事項の整理📝

 2. 実装方法のリサーチ
!
 OCR API の活用Gemini MultiModal API > Azure OCR API

 3. プロトタイプで価値を検証 (PoC)

 4. テストデータでモデルとプロンプト検証📝
!Gemini 1.5 Flashを採用📝

 5. 本番検証
!他のプロダクトのロードマップを邪魔しないように、既存アプリに対する組み込みも対応📝
LangFuseで監視📝

 プロジェクトから得た学び📝

 今後の課題📝
https://tech.smarthr.jp/entry/ai-matome

まさぴょん🐱

 AIエージェントの評価 by PharmaX
 登壇者：Akihiro Ueno | PharmaX (@ueeeeniki)さんhttps://x.com/ueeeeniki

 StudyCoの運営メンバー

 『漢方薬局 Yojo』toCアプリ

 医薬品相談AIエージェント
!AIが人に指示/依頼するような体験📝
AIエージェント -> 薬剤師

 Agentic Workflow (フロー・エンジニアリング)
!多段で判断している📝
ルールベースでLLM処理可能かを判定する。
LLMで会話を分刷りして、LLM処理可能かを判定する。
LLMで次のフェーズに移動すべきを判断する。
!Difyは、PoCを使用する際に使用する。

本番プロダクトは、LangGraqhで開発する。

 Agentic Workflow (フロー・エンジニアリング)とは？
!User目線では、AI Agentのように動くので、AI Agentと呼んでOKだと思っている📝

 どう評価するか？
!
各タスクごとに、Outputを評価する。
処理系全体の最終Outputを評価する。


 LLMの評価をどのようにするか？
!LLM as a judge で、OutputをLLM自身で評価させる📝

 LLM as a judgeで使用している評価用のプロンプト事例📝

 LLM as a judgeの必要性📝

 評価の3レイヤー📝

 LangSmithを使って、各タスクに対して評価を実施する📝

 リリース後のLLM as a judgeで、評価結果を可視化する📝

 リリース後に、人手でアノテーションして本番環境での正答率も測定する📝
!ここまでやって、かなり精度が安定する💪！！

 ファインチューニングすることもある📝

 Agentic Workflow (フロー・エンジニアリング)のファインチューニング
!重要なところから、精度を改善していく！１

 ワークフローの限界

 エンドツーエンドの学習とは？

 まとめ

まさぴょん🐱

パネルディスカッション

Q: LLMによる評価(LLM as a judge)も結局は、間違いのリスクがあるのでは？

LLM as a judgeのプロンプトも改善し続ける📝
評価のデータセットもLLMで作成するが、人間で作成するものもある。
すべてにこだわるとキリがないので、重要なものに力点を置いて精度を上げていく！
Q&A系のデータセットは、ドメイン知識がある人が作成するのがいい📝
正解があるものは、人がアノテーションやることもある📝

Q: Difyをプロダクションで使わない理由は？

Difyだと複雑なワークフローを組むのが難しい。
細かい制御をしようとすると、Difyだと難しい。そこで自前で実装する必要がある。

Difyで実装しても、結局、ある程度Codeを追加で書いて機能追加や制御追加もしている。

Difyだと、ノーコードのGUIに閉じているからこそ、Code資産として転用しずらい。
また、CodeというDocが足りない。。。

Q: オンライン評価はどういった形で運用しているのか？

LangFuseでAPI出力のログを取りつつ、プロダクトでユーザーが実際にSubmitしているデータを取得して、それを比較することで精度を見ています（ユーザー修正がなければないほど良いと考える）。

オフラインに関しては、データを固定し、項目文字列一致率やLLM as a judgeのスコアの推移を比較し、プロンプトやモデルの変更をかけます。

Q: 実際にユーザーが送信したPDFファイルとレスポンス情報の保存、その情報を参考にしたプロンプト等の改善方法について

LangFuseでAPI出力のログを取りつつ、プロダクトでユーザーが実際にSubmitしているデータを取得して（従業員情報のAPIがあります）、それを比較することで精度を見ています（ユーザー修正がなければないほど良いと考える）。
もちろん生データ（実際の履歴書）も確認する想定です。

プロンプトとモデルは定量スコアとともに記録し、スコアが下がらないようにして改善するという形ですね。

パネルディスカッション内容

実際にどのようにリリース判断を行っているのか？

薬剤師さんにAIがサジェストした結果が、いいねとなってから、リリース📝
フェーズを区切って、場面ごとに自動化する。
少しずつ自動化して

ユーザーに受け入れてもらう工夫

自動化の部分で、ハレーションが起こらないか？
ある程度、起こっている。
ただ、許容いただいているところもある。

プロジェクトの進め方

攻めるべきところと、守るところのバランスが大事。
できるところから着実に進めて、効果検証とそれを認めてもらえるようなやり方で進める📝

自分の業務では、どう使っている？

DeepResarch ✖️ Cusor で、要件定義・設計Doc作成 -> 実装の高速フロー
- Curosr と Roo-Clineで、開発とかもする。
論文データベースのAPIを叩いて、毎朝AI論文を要約する「オレオレメールマガジン」を作ったりしている📝
NoteBookLMで、RAGの民主化、社内に普及させたい！！
- Q&Aの自動化
Devinを活用していきたい！！