🙄
LLMのベンチマークまとめ
-
Chatbot Arena Leaderboard
"Judging LLM-as-a-judge with MT-Bench and Chatbot Arena"に基づいたベンチマーク。最も信頼できる。Vicunaモデルと同じ組織が運営 -
https://github.com/FranxYao/chain-of-thought-hub/blob/main/MMLU/readme.md
各モデルの評価を再実施している。falcon-40BよりLLama-33Bや65Bのほうが良いことがわかる -
huggingfaceのopen_llm_leaderboard
信頼できない。現在falcon-40b-instructが一番良いように見えるが、実際にはLLama-65Bのほうが良い
Discussion