日本語LLM評価データセットの huggingface/datasets 登録状況
最近、大規模言語モデルをベースとした自然言語処理では huggingface/transformers だけでなく huggingface/datasets を使うことが多くなっている。transformers がモデルをコミュニティで管理する仕組みなのに対し、datasets はデータセットをコミュニティで管理する仕組みである。
datasets で管理されたデータセットの例↓
データセットが datasets に対応していることが前提のフレームワークも増えてきた。例えば、日本語LLMの few-shot 評価でも話題の lm-evaluation-harness は、評価に使いたいデータセットが datasets に対応していないと評価できない。
こうした背景から、日本語のデータセットを datasets に登録していくという泥臭い作業が日本語LLM評価においても今後重要になっていきそうな予感がある(データセットが再配布OKのライセンスを付与されていれば、datasets に登録すること自体に問題はないというのが自分の理解)。
自分自身も、今年の初頭に JGLUE を datasets に登録しませんか?という GitHub Issue を雑に立てたところ、ありがたいことにしゅんけー (@shunk031) さんがすぐに対応してくださり、後々の LLM 評価に役立つという良い話があった。
なので、今回はそんな datasets にまつわる状況を周知するような記事を書いてみようと思う。
日本語LLMを評価するためのデータは各所でまとめられていそうだが、自分の知る限りLLM勉強会のPDFにあるまとめが一番網羅的な感じがする(JAQKETとかWRIMEとか、入れてもよさそうなデータセットは他にもたくさんあるけど)。
ここでまとめられている公開済み評価用データと、huggingface/datasets の登録状況を対応づけたものが以下の通り。
自分が把握している範囲でまとめているので、修正・更新の必要がある場合は Zenn のコメントに書いていただくか私に直接ご連絡ください。
| タスクの種類 | データセット名 | huggingface/datasets の登録状況 |
|---|---|---|
| 意味類似度判定 | JSTS (JGLUEの一タスク) | shunk031/JGLUE |
| 自然言語推論/含意関係認識 | JNLI (JGLUEの一タスク) | shunk031/JGLUE |
| 自然言語推論/含意関係認識 | JSeM | × |
| 自然言語推論/含意関係認識 | JSICK | hpprc/jsick |
| 自然言語推論/含意関係認識 | JaNLI | hpprc/janli |
| 文書分類 | MARC-ja (JGLUEの一タスク) | shunk031/JGLUE |
| 数式推論 | MAWPS (Math Word Problems) の日本語版?(詳細不明) | × |
| 推論 | JCommonsenseQA (JGLUEの一タスク) | shunk031/JGLUE |
| 時間推論 | Jamp | × |
| 有害表現検知 | 日本語有害表現スキーマ・データセット | × |
| 有害表現検知 | 日本語人権侵害表現データセット | × |
| 質問応答 | JSQuAD (JGLUEの一タスク) | shunk031/JGLUE |
| テキスト生成(対話) | Japanese-Daily-Dialogue | × |
| テキスト生成(対話) | JPersonaChat | × |
| テキスト生成(対話) | JEmpatheticDialogues | × |
| テキスト生成(要約) | XL-Sum-ja | mkshing/xlsum_ja |
| 統語的評価 | JBLiMP | polm-stability/jblimp |
| 感情分析(金融ドメイン) | chABSA | × |
ここにあるデータセットだけでも、まだまだ datasets に登録されていないものは多いなあという印象。
というわけで、今後は datasets へのデータセットの登録方法を調べていきたい。
Discussion