Open2023/04/18にコメント追加4

LangChain評価周り

評価データセット欠如の解決策

LancChainDatasets

langchain関連の評価データセットをhuggingface hubで公開

QAGenerationChain

特定文書に対して質問-回答ペアを自動で生成してくれるchain

プロンプトはここ

評価指標欠如の解決策

Tracing

chainとagentのトレースログを見やすくしてくれる可視化ツール。

LLMによる評価

LLMのQAの回答で表現の違いが生じた場合でも正しく評価できる。
（例えば正解: 11 tennis balls、予測結果: 11 の場合も正解と判断できる）

いくつかサンプルが公開されている。

QAEvalChainについて

QA chainsの評価ツール

評価セットの自動生成・評価ができる（内部でQAGenerationChainやQAEvalChainが使われている）
chunk sizeやretrieverなどconfig設定を指定して評価できる