日本語LLM評価データセットの huggingface/datasets 登録状況

2023/07/29に公開

最近、大規模言語モデルをベースとした自然言語処理では huggingface/transformers だけでなく huggingface/datasets を使うことが多くなっている。transformers がモデルをコミュニティで管理する仕組みなのに対し、datasets はデータセットをコミュニティで管理する仕組みである。

datasets で管理されたデータセットの例↓

https://huggingface.co/datasets/glue

データセットが datasets に対応していることが前提のフレームワークも増えてきた。例えば、日本語LLMの few-shot 評価でも話題の lm-evaluation-harness は、評価に使いたいデータセットが datasets に対応していないと評価できない。
こうした背景から、日本語のデータセットを datasets に登録していくという泥臭い作業が日本語LLM評価においても今後重要になっていきそうな予感がある(データセットが再配布OKのライセンスを付与されていれば、datasets に登録すること自体に問題はないというのが自分の理解)。

自分自身も、今年の初頭に JGLUE を datasets に登録しませんか?という GitHub Issue を雑に立てたところ、ありがたいことにしゅんけー (@shunk031) さんがすぐに対応してくださり、後々の LLM 評価に役立つという良い話があった。

https://github.com/yahoojapan/JGLUE/issues/8

なので、今回はそんな datasets にまつわる状況を周知するような記事を書いてみようと思う。


日本語LLMを評価するためのデータは各所でまとめられていそうだが、自分の知る限りLLM勉強会のPDFにあるまとめが一番網羅的な感じがする(JAQKETとかWRIMEとか、入れてもよさそうなデータセットは他にもたくさんあるけど)。

チューニング・評価WGの報告 - 第3回 LLM 勉強会

ここでまとめられている公開済み評価用データと、huggingface/datasets の登録状況を対応づけたものが以下の通り。
自分が把握している範囲でまとめているので、修正・更新の必要がある場合は Zenn のコメントに書いていただくか私に直接ご連絡ください。

タスクの種類 データセット名 huggingface/datasets の登録状況
意味類似度判定 JSTS (JGLUEの一タスク) shunk031/JGLUE
自然言語推論/含意関係認識 JNLI (JGLUEの一タスク) shunk031/JGLUE
自然言語推論/含意関係認識 JSeM ×
自然言語推論/含意関係認識 JSICK hpprc/jsick
自然言語推論/含意関係認識 JaNLI hpprc/janli
文書分類 MARC-ja (JGLUEの一タスク) shunk031/JGLUE
数式推論 MAWPS (Math Word Problems) の日本語版?(詳細不明) ×
推論 JCommonsenseQA (JGLUEの一タスク) shunk031/JGLUE
時間推論 Jamp ×
有害表現検知 日本語有害表現スキーマ・データセット ×
有害表現検知 日本語人権侵害表現データセット ×
質問応答 JSQuAD (JGLUEの一タスク) shunk031/JGLUE
テキスト生成(対話) Japanese-Daily-Dialogue ×
テキスト生成(対話) JPersonaChat ×
テキスト生成(対話) JEmpatheticDialogues ×
テキスト生成(要約) XL-Sum-ja mkshing/xlsum_ja
統語的評価 JBLiMP polm-stability/jblimp
感情分析(金融ドメイン) chABSA ×

ここにあるデータセットだけでも、まだまだ datasets に登録されていないものは多いなあという印象。

というわけで、今後は datasets へのデータセットの登録方法を調べていきたい。

Discussion