Open4

LangChain評価周り

NchasoNchaso
評価データセット欠如の解決策
  • LancChainDatasets

langchain関連の評価データセットをhuggingface hubで公開

https://huggingface.co/LangChainDatasets

  • QAGenerationChain

特定文書に対して質問-回答ペアを自動で生成してくれるchain
https://python.langchain.com/en/latest/use_cases/evaluation/qa_generation.html

プロンプトはここ
https://github.com/hwchase17/langchain/blob/master/langchain/chains/qa_generation/prompt.py

NchasoNchaso
評価指標欠如の解決策
  • Tracing

chainとagentのトレースログを見やすくしてくれる可視化ツール。

https://python.langchain.com/en/latest/tracing.html

  • LLMによる評価

LLMのQAの回答で表現の違いが生じた場合でも正しく評価できる。
(例えば正解: 11 tennis balls、予測結果: 11 の場合も正解と判断できる)

いくつかサンプルが公開されている。
https://python.langchain.com/en/latest/use_cases/evaluation/qa_benchmarking_pg.html

QAEvalChainについて
https://python.langchain.com/en/latest/use_cases/evaluation/question_answering.html#evaluation