⛳

日本語LLM評価データセットの huggingface/datasets 登録状況

2023/07/29に公開

最近、大規模言語モデルをベースとした自然言語処理では huggingface/transformers だけでなく huggingface/datasets を使うことが多くなっている。transformers がモデルをコミュニティで管理する仕組みなのに対し、datasets はデータセットをコミュニティで管理する仕組みである。

datasets で管理されたデータセットの例↓

https://huggingface.co/datasets/glue

データセットが datasets に対応していることが前提のフレームワークも増えてきた。例えば、日本語LLMの few-shot 評価でも話題の lm-evaluation-harness は、評価に使いたいデータセットが datasets に対応していないと評価できない。
こうした背景から、日本語のデータセットを datasets に登録していくという泥臭い作業が日本語LLM評価においても今後重要になっていきそうな予感がある（データセットが再配布OKのライセンスを付与されていれば、datasets に登録すること自体に問題はないというのが自分の理解）。

自分自身も、今年の初頭に JGLUE を datasets に登録しませんか？という GitHub Issue を雑に立てたところ、ありがたいことにしゅんけー (@shunk031) さんがすぐに対応してくださり、後々の LLM 評価に役立つという良い話があった。

なので、今回はそんな datasets にまつわる状況を周知するような記事を書いてみようと思う。

日本語LLMを評価するためのデータは各所でまとめられていそうだが、自分の知る限りLLM勉強会のPDFにあるまとめが一番網羅的な感じがする（JAQKETとかWRIMEとか、入れてもよさそうなデータセットは他にもたくさんあるけど）。

チューニング・評価WGの報告 - 第3回 LLM 勉強会

ここでまとめられている公開済み評価用データと、huggingface/datasets の登録状況を対応づけたものが以下の通り。
自分が把握している範囲でまとめているので、修正・更新の必要がある場合は Zenn のコメントに書いていただくか私に直接ご連絡ください。

タスクの種類	データセット名	huggingface/datasets の登録状況
意味類似度判定	JSTS (JGLUEの一タスク)	shunk031/JGLUE
自然言語推論/含意関係認識	JNLI (JGLUEの一タスク)	shunk031/JGLUE
自然言語推論/含意関係認識	JSeM	×
自然言語推論/含意関係認識	JSICK	hpprc/jsick
自然言語推論/含意関係認識	JaNLI	hpprc/janli
文書分類	MARC-ja (JGLUEの一タスク)	shunk031/JGLUE
数式推論	MAWPS (Math Word Problems) の日本語版？（詳細不明）	×
推論	JCommonsenseQA (JGLUEの一タスク)	shunk031/JGLUE
時間推論	Jamp	×
有害表現検知	日本語有害表現スキーマ・データセット	×
有害表現検知	日本語人権侵害表現データセット	×
質問応答	JSQuAD (JGLUEの一タスク)	shunk031/JGLUE
テキスト生成（対話）	Japanese-Daily-Dialogue	×
テキスト生成（対話）	JPersonaChat	×
テキスト生成（対話）	JEmpatheticDialogues	×
テキスト生成（要約）	XL-Sum-ja	mkshing/xlsum_ja
統語的評価	JBLiMP	polm-stability/jblimp
感情分析（金融ドメイン）	chABSA	×

ここにあるデータセットだけでも、まだまだ datasets に登録されていないものは多いなあという印象。

というわけで、今後は datasets へのデータセットの登録方法を調べていきたい。

Discussion