『SmartHR AI tech talk#1 ── 実サービスでのAI利用のリアル』に参加してみた📝

SmartHR AI tech talk#1 ── 実サービスでのAI利用のリアル

マルチモーダルLLMによるOCRの検証 by SmartHR
登壇者:ryopenguin | ryo kaneoka (@ryopenguin)さん
SmartHR AI チーム関連情報
SmartHRのAIプロダクトの取り組み📝
プロジェクトの流れ・全体像📝
1. 課題と要求/制約事項の整理📝
2. 実装方法のリサーチ
3. プロトタイプで価値を検証 (PoC)
4. テストデータでモデルとプロンプト検証📝
5. 本番検証
プロジェクトから得た学び📝
今後の課題📝

AIエージェントの評価 by PharmaX
登壇者:Akihiro Ueno | PharmaX (@ueeeeniki)さん
StudyCoの運営メンバー
『漢方薬局 Yojo』toCアプリ
医薬品相談AIエージェント
Agentic Workflow (フロー・エンジニアリング)
Agentic Workflow (フロー・エンジニアリング)とは?
どう評価するか?
LLMの評価をどのようにするか?
LLM as a judgeで使用している評価用のプロンプト事例📝
LLM as a judgeの必要性📝
評価の3レイヤー📝
LangSmithを使って、各タスクに対して評価を実施する📝
リリース後のLLM as a judgeで、評価結果を可視化する📝
リリース後に、人手でアノテーションして本番環境での正答率も測定する📝
ファインチューニングすることもある📝
Agentic Workflow (フロー・エンジニアリング)のファインチューニング
ワークフローの限界
エンドツーエンドの学習とは?
まとめ

パネルディスカッション
Q: LLMによる評価(LLM as a judge)も結局は、間違いのリスクがあるのでは?
LLM as a judgeのプロンプトも改善し続ける📝
評価のデータセットもLLMで作成するが、人間で作成するものもある。
すべてにこだわるとキリがないので、重要なものに力点を置いて精度を上げていく!
Q&A系のデータセットは、ドメイン知識がある人が作成するのがいい📝
正解があるものは、人がアノテーションやることもある📝
Q: Difyをプロダクションで使わない理由は?
Difyだと複雑なワークフローを組むのが難しい。
細かい制御をしようとすると、Difyだと難しい。そこで自前で実装する必要がある。
Difyで実装しても、結局、ある程度Codeを追加で書いて機能追加や制御追加もしている。
Difyだと、ノーコードのGUIに閉じているからこそ、Code資産として転用しずらい。
また、CodeというDocが足りない。。。
Q: オンライン評価はどういった形で運用しているのか?
LangFuseでAPI出力のログを取りつつ、プロダクトでユーザーが実際にSubmitしているデータを取得して、それを比較することで精度を見ています(ユーザー修正がなければないほど良いと考える)。
オフラインに関しては、データを固定し、項目文字列一致率やLLM as a judgeのスコアの推移を比較し、プロンプトやモデルの変更をかけます。
Q: 実際にユーザーが送信したPDFファイルとレスポンス情報の保存、その情報を参考にしたプロンプト等の改善方法について
LangFuseでAPI出力のログを取りつつ、プロダクトでユーザーが実際にSubmitしているデータを取得して(従業員情報のAPIがあります)、それを比較することで精度を見ています(ユーザー修正がなければないほど良いと考える)。
もちろん生データ(実際の履歴書)も確認する想定です。
プロンプトとモデルは定量スコアとともに記録し、スコアが下がらないようにして改善するという形ですね。
パネルディスカッション内容
実際にどのようにリリース判断を行っているのか?
薬剤師さんにAIがサジェストした結果が、いいねとなってから、リリース📝
フェーズを区切って、場面ごとに自動化する。
少しずつ自動化して
ユーザーに受け入れてもらう工夫
自動化の部分で、ハレーションが起こらないか?
ある程度、起こっている。
ただ、許容いただいているところもある。
プロジェクトの進め方
攻めるべきところと、守るところのバランスが大事。
できるところから着実に進めて、効果検証とそれを認めてもらえるようなやり方で進める📝
自分の業務では、どう使っている?
- DeepResarch ✖️ Cusor で、要件定義・設計Doc作成 -> 実装の高速フロー
- Curosr と Roo-Clineで、開発とかもする。
- 論文データベースのAPIを叩いて、毎朝AI論文を要約する「オレオレメールマガジン」を作ったりしている📝
- NoteBookLMで、RAGの民主化、社内に普及させたい!!
- Q&Aの自動化
- Devinを活用していきたい!!