Zenn
evaluation
このトピックを指定するには
evaluation
と入力
Articles
5
Scraps
16
scraps
Trending
Alltime
Latest
"Multi-Needle In A Haystack" でLLMのロングコンテキストの評価を試す
Closed
kun432
2024/03/23にクローズ
#
evaluation
#
needleinahaystack
#
LLM
8
検索の評価指標をranxを使いながら理解する
Closed
kun432
2024/02/28にクローズ
#
evaluation
#
retrieval
#
search
#
ranx
21
ranxを試す
Closed
kun432
2023/11/26にクローズ
#
ranx
#
evaluation
#
search
11
RAGASを試す
Closed
kun432
2024/01/31にクローズ
#
Ragas
#
OpenAI
#
evaluation
#
LLM
11
LangChainのTruLens Integrationを試してみる
Closed
kun432
2023/07/11にクローズ
#
evaluation
#
trulens
#
AI
#
LLM
#
LangChain
9
haystackのAnnotation Toolを試す
Closed
kun432
2024/01/30にクローズ
#
RAG
#
evaluation
#
LLM
#
retrieval
#
Haystack
4
「yet-another-applied-llm-benchmark」を試す
Open
kun432
29日前にコメント追加
#
evaluation
#
benchmark
#
LLM
1
RAGProbe: An Automated Approach for Evaluating RAG Applications
Closed
kun432
2ヶ月前にクローズ
#
evaluation
#
RAG
#
論文
1
Shaberiベンチマークで評価する
Closed
kun432
5ヶ月前にクローズ
#
shaberi
#
benchmark
#
evaluation
#
LLM
2
「flow-judge」を試す
Open
kun432
2ヶ月前にコメント追加
#
evaluation
#
LLM
#
LlamaIndex
#
flowjudge
2
RAG評価ツール「Ragtime」を試す
Open
kun432
2ヶ月前にコメント追加
#
evaluation
#
RAG
1
LLM/RAGの評価ツール「UpTrain」を試す
Open
kun432
2024/05/13にコメント追加
#
evaluation
#
uptrain
#
RAG
#
LLM
1
ELYZA-tasks-100を使ったローカルLLMの評価
Closed
kun432
5ヶ月前にクローズ
#
elyza
#
evaluation
#
LLM
2
RAGの評価ツール"ARES"を試す
Open
kun432
2024/03/24にコメント追加
#
ares
#
evaluation
#
LLM
#
RAG
1
DeepEvalを試す
Open
kun432
2024/05/20にコメント追加
#
DeepEval
#
evaluation
#
LLM
3
TruBricksを使ったユーザーフィードバック機能のデモを試してみる
Closed
kun432
2023/07/11にクローズ
#
evaluation
#
trubricks
#
LLM
4