🤔
結局日本語大規模言語モデルってどれを使えばいいの?JGLUEベンチマーク非公式まとめ
2022年6月に日本語言語理解ベンチマークJGLUEが公開され、日本語大規模言語モデルの性能比較がより簡単に行えるようになりました。
しかしながら、2023年1月現在、JGLUEの test データやリーダーボード(モデルのスコア成績ランキング)は公開されていません。様々な企業・研究機関が dev データを使ってモデルの性能評価を行っている状況です。
そこで本記事では、現在公表されている dev データのモデルのスコア一覧をまとめてみます。あくまで、JGLUE のリーダーボードが公開されるまでの暫定的な記事としてご覧ください。
注: HuggingFace でアップロードされているモデルのスコアのみ掲載します。
モデル | MARC-ja | JSTS(v1.1) | JNLI | JSQuAD | JCommonsenseQA |
---|---|---|---|---|---|
acc | Pearson/Spearman | acc | EM/F1 | acc | |
(参考)人間 | 0.989 | 0.899/0.861 | 0.925 | 0.871/0.944 | 0.986 |
東北大BERT (base) | 0.958 | 0.909/0.868 | 0.899 | 0.871/0.941 | 0.808 |
東北大BERT (base, 文字レベル) | 0.956 | 0.893/0.851 | 0.892 | 0.864/0.937 | 0.718 |
東北大BERT (large) | 0.955 | 0.913/0.872 | 0.900 | 0.880/0.946 | 0.816 |
早大RoBERTa (base) | 0.962 | 0.913/0.873 | 0.895 | 0.864/0.927 | 0.840 |
早大RoBERTa (large) | 0.954 | 0.930/0.896 | 0.924 | 0.884/0.940 | 0.907 |
早大RoBERTa (large, 最大入力長512) | 0.961 | 0.926/0.892 | 0.926 | 0.918/0.963 | 0.891 |
リクルート(Megagon Labs)ELECTRA (base) | 0.963 | - | 0.921 | 0.813/0.903 | 0.856 |
日本語LUKE (base) | 0.965 | 0.916/0.877 | 0.912 | - | 0.842 |
日本語LUKE (large) | 0.965 | 0.932/0.902 | 0.927 | - | 0.893 |
注: JSTS(v1.0) にはバグが含まれていたため、現在は JSTS(v1.1) が公開されています。(参考)
Discussion