Open1

LLM/RAGの評価ツール「UpTrain」を試す

kun432kun432

この記事で知った

https://generativeai.pub/llamaindex-and-rag-evaluation-tools-59bae2944bb3

https://github.com/uptrain-ai/uptrain

UpTrainは、Generative AIアプリケーションを評価し、改善するためのオープンソースの統合プラットフォームである。20以上の事前設定された評価(言語、コード、埋め込みのユースケースをカバー)の評点を提供し、失敗事例の根本原因分析を行い、その解決方法についての洞察を与える。

主な機能

  • インタラクティブなダッシュボード(ベータ)
    UpTrain Dashboardは、ローカルマシン上で動作するウェブベースのインターフェースである。ダッシュボードを使用して、LLMアプリケーションを評価し、結果を表示し、根本原因分析を実行することができる。
  • 20以上の設定済み評価
    応答の完全性、事実の正確さ、文脈の簡潔さなど、20以上の設定済み評価をサポート。
  • データ・セキュリティ
    すべての評価と分析は、お客様のシステム上でローカルに実行されるため、データがお客様のセキュアな環境を離れることはない(モデルのグレーディング・チェック使用中のLLMコールを除く)。
  • 実験
    text-embedding-3-large/small、text-embedding-3-ada、baai/bge-largeなど、さまざまな埋め込みモデルを実験できる。UpTrainは、HuggingFaceモデル、Replicateエンドポイント、またはエンドポイントでホストされているカスタムモデルをサポートしている。
  • 根本原因分析
    否定的なユーザーフィードバックや低い評価スコアのあるケースについて根本原因分析を実行し、LLMパイプラインのどの部分が最適な結果を出していないのかを理解することができる。サポートされているRCAテンプレートを確認する。
  • さまざまな評価 LLM から選択する
    OpenAI、Anthropic、Mistral、AzureのOpenaiエンドポイント、またはAnyscaleでホストされているオープンソースのLLMのいずれかを評価対象として使用できる。
  • 評価をカスタマイズする
    UpTrainには、評価をカスタマイズする方法がたくさんある。評価方法(思考の連鎖か分類か)、数少ない例、シナリオの説明をカスタマイズできる。また、カスタム評価者を作成することもできる。

近日公開

  • チームとのコラボレーション
  • UMAPとクラスタリングによる可視化の組み込み
  • 失敗事例のパターン認識
  • 迅速な改善提案