🦔

日本語言語データセットまとめ

2023/05/15に公開

タスクの種類

見つけ次第足してます。翻訳データセットは翻訳エラーが気になるので省いています。

タスク	解説
要約	与えられた文章を短くする
文章分類	与えられた文章に（与えられた）ラベルを付与する
文ペア分類	与えられた二つの文章の関係性を分類する
QA	与えられた質問に答える。特に、文脈が与えられたQAをclosed QA、与えられないQAをopen QAと呼ぶ
翻訳	与えられた文章を別の言語に変換する
校正	文章の誤りを修正する
文書生成	与えられた指示を満たす文書を生成する
数学	数学の問題を解く

データセット

データセット	タスク	train	val	test	データリンク	license
MARC-ja	文章分類	187528	5654	5639	huggingface github	CC-BY-SA-4.0
JCoLA	文章分類	369	-	-	huggingface	CC-BY-SA-4.0
JSTS	文ペア分類	12463	1457	1589	github huggingface	CC-BY-SA-4.0
JNLI	文ペア分類	20117	2434	2508	github huggingface	CC-BY-SA-4.0
JSNLI	文ペア分類	533005	-	3916	huggingface	CC-BY-SA-4.0
JSquAD	QA	63870	4475	4470	github huggingface	CC-BY-SA-4.0
JCommonSenseQA	QA	9012	1126	1126	github huggingface	CC-BY-SA-4.0
JAQKET	QA	23335	-	-	ダウンロードページ huggingface	CC-BY-SA-4.0
JaQuAD	QA	31748	3939	4009	github huggingface	CC BY-SA 3.0
BSD	翻訳	20670	2120	2189	github huggingface	CC BY-NC-SA 4.0
JSICK	文ペア分類/翻訳	4500	-	4927	huggingface	CC-BY-SA-4.0
ODEX	文書生成	164	-	-	huggingface	CC-BY-SA-4.0
Elyza tasks 100	文書生成	0	0	100	huggingface	CC-BY-SA-4.0
xwinograd	QA	0	0	959	huggingface	CC-BY-4.0
xlsum	要約	7110	889	889	huggingface	CC-BY-NC-SA-4.0
MGSM	数学	0	0	250	github	CC-BY-4.0
TyDiQA	QA	4390	455	0	huggingface	apache-2.0

データセット概説

後述の「測れる能力」はチャットモデルを前提にする場合、指示に応答する能力も同時に測られる。

MARC-ja

アマゾンのレビューに対してpositive、negativeのラベルをつけるタスク。選択肢はこの2つのみ。JGLUE。

測れる能力：文意を汲み取る力

JCoLA

Japanese Corpus of　Linguistic Acceptabilityの略。ある文章が日本語として成り立っているか（容認できるか）を判定するタスク。同じことを表す二つの文章が提示され、どちらがより自然な表現かを回答する。JGLUE。

測れる能力：日本語の構成能力（ネイティブ力？）

参考

JSTS

文章ペアがどの程度似ているかを[0, 5]の範囲で答えるタスク。完全一致で5、完全に違う場合に0。JGLUE。

測れる能力：日本語の表現の意味理解とニュアンス？

JNLI

2つの文章の間に成立する推論的関係を選択するタスク。一方を前提、他方を仮説としたときに、前提から仮説が導けるときに含意、同時に成立し得ないとき矛盾、どちらとも言えないときに中立と判定する。JGLUE。

測れる能力：日本語の意味理解と妥当な推論能力

JSQuAD

質問に対して提示された文章から該当箇所を抽出する。JGLUE。

測れる能力：質問の意図理解、正確な抽出（抜き出しの際に文字列が変化しない）

JCommonSenseQA

質問に対して選択肢から答えを選択する。JGLUE。

測れる能力：常識力

JSNLI

SNLIを日本語に訳したもの。やってるタスクはJNLIと同じ。ソーシャルワーカーによるクオリティチェックあり。

paper

JAQKET

選択肢から選ぶクイズ問題。JCommonSenseQAより専門的な知識が求められる。

測れる能力：広範な知識力

JaQuAD

JSQuADと同じタスク。wikipediaの文章に対してクラウドソーシングで質問文を生成。

測れる能力：質問の意図理解、正確な抽出（抜き出しの際に文字列が変化しない）

paper

BSD

ビジネスシーンの対訳データセット。

測れる能力：日本語→英語、英語→日本語の翻訳能力

JSICK

文ペア分類のSICKのソーシャルワーカーによる日本語訳。文の類似度推定と推論的関係を推定する（JSTS＋JNLIと同じ）。翻訳元の英語もペアになって提供されている。

測れる能力：日本語の意味理解と妥当な推論能力、日本語の表現の意味理解とニュアンス？

ODEX

コード生成タスク。複数言語ある中の日本語サブセット。

測れる能力：コード生成能力

ELYZA tasks 100

総合的な日本語応答能力を測るもの。ロールプレイや数学、短編作成、要約、4択問題などさまざまなタスクが含まれる。タスク自体は容易で小学生高学年くらいであれば解けそうなものが多い。

測れる能力：総合力？

採点基準

xwinograd

xwinogradの日本語サブセット。穴抜けの文章が提示され、選択肢から文脈上適当なものを選ぶタスク。2択なので乱択でもaccuracyが50は出る。

測れる能力：文脈理解力

xlsum

xlsumの日本語サブセット。ウェブ上の記事を短く要約するタスク。

測れる能力：要約能力

MGSM

Multilingual Grade School Mathの略。GSM8Kデータセットのサブセットを多言語に翻訳したもの。日本語のデータも存在。提案論文ではCoTを使って解いている。

paper

TyDiQA

closed QA。wikipediaの文章（と思しきもの）に対して関連する質問が付与されている。JSQuADなどとほぼ同じ形式。

paper