Open4
LangChain評価周り
評価データセット欠如の解決策
- LancChainDatasets
langchain関連の評価データセットをhuggingface hubで公開
- QAGenerationChain
特定文書に対して質問-回答ペアを自動で生成してくれるchain
プロンプトはここ
評価指標欠如の解決策
- Tracing
chainとagentのトレースログを見やすくしてくれる可視化ツール。
- LLMによる評価
LLMのQAの回答で表現の違いが生じた場合でも正しく評価できる。
(例えば正解: 11 tennis balls、予測結果: 11 の場合も正解と判断できる)
いくつかサンプルが公開されている。
QAEvalChainについて
QA chainsの評価ツール
- 評価セットの自動生成・評価ができる(内部でQAGenerationChainやQAEvalChainが使われている)
- chunk sizeやretrieverなどconfig設定を指定して評価できる