Open4

『SmartHR AI tech talk#1 ── 実サービスでのAI利用のリアル』に参加してみた📝

まさぴょん🐱まさぴょん🐱

マルチモーダルLLMによるOCRの検証 by SmartHR

登壇者:ryopenguin | ryo kaneoka (@ryopenguin)さん

https://x.com/ryopenguin

SmartHR AI チーム関連情報

https://smarthr.jp/release/20250212_ai/

https://tech.smarthr.jp/entry/raise-gdp-with-ai

https://smarthr.co.jp/ai-application-policy/

https://tech.smarthr.jp/entry/ai-matome

SmartHRのAIプロダクトの取り組み📝

プロジェクトの流れ・全体像📝

1. 課題と要求/制約事項の整理📝

2. 実装方法のリサーチ

3. プロトタイプで価値を検証 (PoC)

4. テストデータでモデルとプロンプト検証📝

5. 本番検証

プロジェクトから得た学び📝

今後の課題📝

https://tech.smarthr.jp/entry/ai-matome

まさぴょん🐱まさぴょん🐱

AIエージェントの評価 by PharmaX

登壇者:Akihiro Ueno | PharmaX (@ueeeeniki)さん

https://x.com/ueeeeniki

StudyCoの運営メンバー

『漢方薬局 Yojo』toCアプリ

医薬品相談AIエージェント

Agentic Workflow (フロー・エンジニアリング)

Agentic Workflow (フロー・エンジニアリング)とは?

どう評価するか?

LLMの評価をどのようにするか?

LLM as a judgeで使用している評価用のプロンプト事例📝

LLM as a judgeの必要性📝

評価の3レイヤー📝

LangSmithを使って、各タスクに対して評価を実施する📝

リリース後のLLM as a judgeで、評価結果を可視化する📝

リリース後に、人手でアノテーションして本番環境での正答率も測定する📝

ファインチューニングすることもある📝

Agentic Workflow (フロー・エンジニアリング)のファインチューニング

ワークフローの限界

エンドツーエンドの学習とは?

まとめ

まさぴょん🐱まさぴょん🐱

パネルディスカッション

Q: LLMによる評価(LLM as a judge)も結局は、間違いのリスクがあるのでは?

LLM as a judgeのプロンプトも改善し続ける📝
評価のデータセットもLLMで作成するが、人間で作成するものもある。
すべてにこだわるとキリがないので、重要なものに力点を置いて精度を上げていく!
Q&A系のデータセットは、ドメイン知識がある人が作成するのがいい📝
正解があるものは、人がアノテーションやることもある📝

Q: Difyをプロダクションで使わない理由は?

Difyだと複雑なワークフローを組むのが難しい。
細かい制御をしようとすると、Difyだと難しい。そこで自前で実装する必要がある。

Difyで実装しても、結局、ある程度Codeを追加で書いて機能追加や制御追加もしている。

Difyだと、ノーコードのGUIに閉じているからこそ、Code資産として転用しずらい。
また、CodeというDocが足りない。。。

Q: オンライン評価はどういった形で運用しているのか?

LangFuseでAPI出力のログを取りつつ、プロダクトでユーザーが実際にSubmitしているデータを取得して、それを比較することで精度を見ています(ユーザー修正がなければないほど良いと考える)。

オフラインに関しては、データを固定し、項目文字列一致率やLLM as a judgeのスコアの推移を比較し、プロンプトやモデルの変更をかけます。

Q: 実際にユーザーが送信したPDFファイルとレスポンス情報の保存、その情報を参考にしたプロンプト等の改善方法について

LangFuseでAPI出力のログを取りつつ、プロダクトでユーザーが実際にSubmitしているデータを取得して(従業員情報のAPIがあります)、それを比較することで精度を見ています(ユーザー修正がなければないほど良いと考える)。
もちろん生データ(実際の履歴書)も確認する想定です。

プロンプトとモデルは定量スコアとともに記録し、スコアが下がらないようにして改善するという形ですね。

パネルディスカッション内容

実際にどのようにリリース判断を行っているのか?

薬剤師さんにAIがサジェストした結果が、いいねとなってから、リリース📝
フェーズを区切って、場面ごとに自動化する。
少しずつ自動化して

ユーザーに受け入れてもらう工夫

自動化の部分で、ハレーションが起こらないか?
ある程度、起こっている。
ただ、許容いただいているところもある。

プロジェクトの進め方

攻めるべきところと、守るところのバランスが大事。
できるところから着実に進めて、効果検証とそれを認めてもらえるようなやり方で進める📝

自分の業務では、どう使っている?

  • DeepResarch ✖️ Cusor で、要件定義・設計Doc作成 -> 実装の高速フロー
    • Curosr と Roo-Clineで、開発とかもする。
  • 論文データベースのAPIを叩いて、毎朝AI論文を要約する「オレオレメールマガジン」を作ったりしている📝
  • NoteBookLMで、RAGの民主化、社内に普及させたい!!
    • Q&Aの自動化
  • Devinを活用していきたい!!