Open4

【AI/LLM】次世代AI評価の最前線:HLE(HUMANITY’S LAST EXAM)で見るLLMの現状と課題について📝

まさぴょん🐱まさぴょん🐱

次世代AI評価の最前線:HLEで見るLLMの現状と課題📝

HLEの構成

ベンチマークは、公開されている2,500問の設問で構成されています。
論文では、設問を以下の大まかな科目に分類しています。数学(41%)、物理学(9%)、生物学/医学(11%)、人文科学/社会科学(9%)、コンピュータサイエンス/人工知能(10%)、工学(4%)、化学(7%)、その他(9%)。

設問の約14%は、テキストと画像の両方を理解する能力、すなわちマルチモダリティを必要とします。
設問の24%は多肢選択式、残りは短答式の完全一致設問です。
ベンチマークの過剰適合をテストするための非公開設問も用意されています。

https://en.wikipedia.org/wiki/Humanity's_Last_Exam

https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication Ready Humanity's Last Exam.pdf?utm_source=chatgpt.com

HLE 評価Script📝

https://github.com/centerforaisafety/hle

HLE DataSet📝

https://huggingface.co/datasets/cais/hle

推論の深さと知識の広さ📝

https://scale.com/leaderboard/humanitys_last_exam

https://note.com/ainest/n/n99826e74dc3e

https://qiita.com/eiji-noguchi/items/df48a5adfdd555e91695

https://agi.safe.ai/

https://ledge.ai/articles/ai_humanitys_last_exam