🤔

結局日本語大規模言語モデルってどれを使えばいいの?JGLUEベンチマーク非公式まとめ

2023/01/07に公開約2,200字

2022年6月に日本語言語理解ベンチマークJGLUEが公開され、日本語大規模言語モデルの性能比較がより簡単に行えるようになりました。
しかしながら、2023年1月現在、JGLUEの test データやリーダーボード(モデルのスコア成績ランキング)は公開されていません。様々な企業・研究機関が dev データを使ってモデルの性能評価を行っている状況です。

そこで本記事では、現在公表されている dev データのモデルのスコア一覧をまとめてみます。あくまで、JGLUE のリーダーボードが公開されるまでの暫定的な記事としてご覧ください。

注: HuggingFace でアップロードされているモデルのスコアのみ掲載します。


モデル MARC-ja JSTS(v1.1) JNLI JSQuAD JCommonsenseQA
acc Pearson/Spearman acc EM/F1 acc
(参考)人間 0.989 0.899/0.861 0.925 0.871/0.944 0.986
東北大BERT (base) 0.958 0.909/0.868 0.899 0.871/0.941 0.808
東北大BERT (base, 文字レベル) 0.956 0.893/0.851 0.892 0.864/0.937 0.718
東北大BERT (large) 0.955 0.913/0.872 0.900 0.880/0.946 0.816
早大RoBERTa (base) 0.962 0.913/0.873 0.895 0.864/0.927 0.840
早大RoBERTa (large) 0.954 0.930/0.896 0.924 0.884/0.940 0.907
早大RoBERTa (large, 最大入力長512) 0.961 0.926/0.892 0.926 0.918/0.963 0.891
リクルート(Megagon Labs)ELECTRA (base) 0.963 - 0.921 0.813/0.903 0.856
日本語LUKE (base) 0.965 0.916/0.877 0.912 - 0.842
日本語LUKE (large) 0.965 0.932/0.902 0.927 - 0.893

注: JSTS(v1.0) にはバグが含まれていたため、現在は JSTS(v1.1) が公開されています。(参考

スコアの出典

Discussion

ログインするとコメントできます