Open1
RAG評価ツール「Ragtime」を試す
同名の別のものを探してて見つけた。
referred from https://github.com/recitalAI/ragtime-packageRagtime 🎹はLLMOpsフレームワークであり、以下を自動で可能にします:
- Retrieval Augmented Generation (RAG) システムの評価
- 異なるRAG/LLMを比較
- 自動評価を可能にするファクトの生成
Ragtime 🎹 では、多肢選択問題や、回答と基準となる回答との間の共通語のカウントだけでなく、長文回答の評価も可能です。 また、要約者の評価も必要となります。
Ragtime 🎹では、RAGは、オプションとしてRetriever、そして常に1つまたは複数のLarge Language Model (LLM)で構成されます。
- Retrieverは質問を入力として受け取り、文書知識ベースから取得した1つまたは複数のチャンクまたはパラグラフを返します
- LLMは、質問とオプションのチャンクで構成されるプロンプトを入力として受け取り、LLMAnswerを返すテキストからテキストを生成するものです
プロンプトの生成方法と、LLMAnswerが回答を返すために後処理される方法を指定することができます。
サンプルのレポジトリがある
ここ見てると、評価・比較をいい感じにExcelにレポートしてくれる機能があるっぽいので、ちょっと気になった。