Open4

LangChain評価周り

NchasoNchaso
評価指標欠如の解決策
  • Tracing

chainとagentのトレースログを見やすくしてくれる可視化ツール。

https://python.langchain.com/en/latest/tracing.html

  • LLMによる評価

LLMのQAの回答で表現の違いが生じた場合でも正しく評価できる。
(例えば正解: 11 tennis balls、予測結果: 11 の場合も正解と判断できる)

いくつかサンプルが公開されている。
https://python.langchain.com/en/latest/use_cases/evaluation/qa_benchmarking_pg.html

QAEvalChainについて
https://python.langchain.com/en/latest/use_cases/evaluation/question_answering.html#evaluation