🦔

日本語言語データセットまとめ

2023/05/15に公開

タスクの種類

見つけ次第足してます。翻訳データセットは翻訳エラーが気になるので省いています。

タスク 解説
要約 与えられた文章を短くする
文章分類 与えられた文章に(与えられた)ラベルを付与する
文ペア分類 与えられた二つの文章の関係性を分類する
QA 与えられた質問に答える。特に、文脈が与えられたQAをclosed QA、与えられないQAをopen QAと呼ぶ
翻訳 与えられた文章を別の言語に変換する
校正 文章の誤りを修正する
文書生成 与えられた指示を満たす文書を生成する
数学 数学の問題を解く

データセット

データセット タスク train val test データリンク license
MARC-ja 文章分類 187528 5654 5639 huggingface
github
CC-BY-SA-4.0
JCoLA 文章分類 369 - - huggingface CC-BY-SA-4.0
JSTS 文ペア分類 12463 1457 1589 github
huggingface
CC-BY-SA-4.0
JNLI 文ペア分類 20117 2434 2508 github
huggingface
CC-BY-SA-4.0
JSNLI 文ペア分類 533005 - 3916 huggingface CC-BY-SA-4.0
JSquAD QA 63870 4475 4470 github
huggingface
CC-BY-SA-4.0
JCommonSenseQA QA 9012 1126 1126 github
huggingface
CC-BY-SA-4.0
JAQKET QA 23335 - - ダウンロードページ
huggingface
CC-BY-SA-4.0
JaQuAD QA 31748 3939 4009 github
huggingface
CC BY-SA 3.0
BSD 翻訳 20670 2120 2189 github
huggingface
CC BY-NC-SA 4.0
JSICK 文ペア分類/翻訳 4500 - 4927 huggingface CC-BY-SA-4.0
ODEX 文書生成 164 - - huggingface CC-BY-SA-4.0
Elyza tasks 100 文書生成 0 0 100 huggingface CC-BY-SA-4.0
xwinograd QA 0 0 959 huggingface CC-BY-4.0
xlsum 要約 7110 889 889 huggingface CC-BY-NC-SA-4.0
MGSM 数学 0 0 250 github CC-BY-4.0
TyDiQA QA 4390 455 0 huggingface apache-2.0

データセット概説

後述の「測れる能力」はチャットモデルを前提にする場合、指示に応答する能力も同時に測られる。

MARC-ja

アマゾンのレビューに対してpositive、negativeのラベルをつけるタスク。選択肢はこの2つのみ。JGLUE。

測れる能力:文意を汲み取る力

JCoLA

Japanese Corpus of Linguistic Acceptabilityの略。ある文章が日本語として成り立っているか(容認できるか)を判定するタスク。同じことを表す二つの文章が提示され、どちらがより自然な表現かを回答する。JGLUE。

測れる能力:日本語の構成能力(ネイティブ力?)

参考

JSTS

文章ペアがどの程度似ているかを[0, 5]の範囲で答えるタスク。完全一致で5、完全に違う場合に0。JGLUE。

測れる能力:日本語の表現の意味理解とニュアンス?

JNLI

2つの文章の間に成立する推論的関係を選択するタスク。一方を前提、他方を仮説としたときに、前提から仮説が導けるときに含意、同時に成立し得ないとき矛盾、どちらとも言えないときに中立と判定する。JGLUE。

測れる能力:日本語の意味理解と妥当な推論能力

JSQuAD

質問に対して提示された文章から該当箇所を抽出する。JGLUE。

測れる能力:質問の意図理解、正確な抽出(抜き出しの際に文字列が変化しない)

JCommonSenseQA

質問に対して選択肢から答えを選択する。JGLUE。

測れる能力:常識力

JSNLI

SNLIを日本語に訳したもの。やってるタスクはJNLIと同じ。ソーシャルワーカーによるクオリティチェックあり。

JAQKET

選択肢から選ぶクイズ問題。JCommonSenseQAより専門的な知識が求められる。

測れる能力:広範な知識力

JaQuAD

JSQuADと同じタスク。wikipediaの文章に対してクラウドソーシングで質問文を生成。

測れる能力:質問の意図理解、正確な抽出(抜き出しの際に文字列が変化しない)

BSD

ビジネスシーンの対訳データセット。

測れる能力:日本語→英語、英語→日本語の翻訳能力

JSICK

文ペア分類のSICKのソーシャルワーカーによる日本語訳。文の類似度推定と推論的関係を推定する(JSTS+JNLIと同じ)。翻訳元の英語もペアになって提供されている。

測れる能力:日本語の意味理解と妥当な推論能力、日本語の表現の意味理解とニュアンス?

ODEX

コード生成タスク。複数言語ある中の日本語サブセット。

測れる能力:コード生成能力

ELYZA tasks 100

総合的な日本語応答能力を測るもの。ロールプレイや数学、短編作成、要約、4択問題などさまざまなタスクが含まれる。タスク自体は容易で小学生高学年くらいであれば解けそうなものが多い。

測れる能力:総合力?

xwinograd

xwinogradの日本語サブセット。穴抜けの文章が提示され、選択肢から文脈上適当なものを選ぶタスク。2択なので乱択でもaccuracyが50は出る。

測れる能力:文脈理解力

xlsum

xlsumの日本語サブセット。ウェブ上の記事を短く要約するタスク。

測れる能力:要約能力

MGSM

Multilingual Grade School Mathの略。GSM8Kデータセットのサブセットを多言語に翻訳したもの。日本語のデータも存在。提案論文ではCoTを使って解いている。

TyDiQA

closed QA。wikipediaの文章(と思しきもの)に対して関連する質問が付与されている。JSQuADなどとほぼ同じ形式。

参考

Discussion