Open2ヶ月前にコメント追加4

【AI/LLM】次世代AI評価の最前線：HLE(HUMANITY’S LAST EXAM)で見るLLMの現状と課題について📝

Humanity’s Last Exam

まさぴょん🐱

 次世代AI評価の最前線：HLEで見るLLMの現状と課題📝
 HLEの構成ベンチマークは、公開されている2,500問の設問で構成されています。

論文では、設問を以下の大まかな科目に分類しています。数学（41%）、物理学（9%）、生物学／医学（11%）、人文科学／社会科学（9%）、コンピュータサイエンス／人工知能（10%）、工学（4%）、化学（7%）、その他（9%）。
設問の約14%は、テキストと画像の両方を理解する能力、すなわちマルチモダリティを必要とします。

設問の24%は多肢選択式、残りは短答式の完全一致設問です。

ベンチマークの過剰適合をテストするための非公開設問も用意されています。
https://en.wikipedia.org/wiki/Humanity's_Last_Exam
https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication Ready Humanity's Last Exam.pdf?utm_source=chatgpt.com

 HLE 評価Script📝https://github.com/centerforaisafety/hle

 HLE DataSet📝https://huggingface.co/datasets/cais/hle

 推論の深さと知識の広さ📝!AI安全センターと提携し 、ベンチマーク飽和の問題に対処するため、人類最後の試験（HLE）を作成しました。

これは、 AIに関する最後の学術試験となるよう設計された、最も難解で、科目多様性に富んだマルチモーダルな2,500問の問題です。

HLEは、推論の深さ（例：世界レベルの数学問題）と科目領域全体にわたる知識の広さの両方をテストするように設計されており、モデルの能力を正確に測定します。

現在の最先端のモデルは、HLEでの精度が低く、解答に較正されていない過信を体系的に示しています。
https://scale.com/leaderboard/humanitys_last_exam
https://note.com/ainest/n/n99826e74dc3e
https://qiita.com/eiji-noguchi/items/df48a5adfdd555e91695
https://agi.safe.ai/
https://ledge.ai/articles/ai_humanitys_last_exam

まさぴょん🐱

Humanity's Last Exam (Text Only) LeaderBoard📝

まさぴょん🐱

HLE Datasets📝

まさぴょん🐱

 HLEスコアが高いLLMモデル：Grok4について分析する📝https://zenn.dev/acntechjp/articles/963201c99e9c56

 STEM分野のデータセットについて📝https://zenn.dev/manase/scraps/0c108b26e9e1d9