日本語言語データセットまとめ
タスクの種類
見つけ次第足してます。翻訳データセットは翻訳エラーが気になるので省いています。
| タスク | 解説 |
|---|---|
| 要約 | 与えられた文章を短くする |
| 文章分類 | 与えられた文章に(与えられた)ラベルを付与する |
| 文ペア分類 | 与えられた二つの文章の関係性を分類する |
| QA | 与えられた質問に答える。特に、文脈が与えられたQAをclosed QA、与えられないQAをopen QAと呼ぶ |
| 翻訳 | 与えられた文章を別の言語に変換する |
| 校正 | 文章の誤りを修正する |
| 文書生成 | 与えられた指示を満たす文書を生成する |
| 数学 | 数学の問題を解く |
データセット
| データセット | タスク | train | val | test | データリンク | license |
|---|---|---|---|---|---|---|
| MARC-ja | 文章分類 | 187528 | 5654 | 5639 |
huggingface github |
CC-BY-SA-4.0 |
| JCoLA | 文章分類 | 369 | - | - | huggingface | CC-BY-SA-4.0 |
| JSTS | 文ペア分類 | 12463 | 1457 | 1589 |
github huggingface |
CC-BY-SA-4.0 |
| JNLI | 文ペア分類 | 20117 | 2434 | 2508 |
github huggingface |
CC-BY-SA-4.0 |
| JSNLI | 文ペア分類 | 533005 | - | 3916 | huggingface | CC-BY-SA-4.0 |
| JSquAD | QA | 63870 | 4475 | 4470 |
github huggingface |
CC-BY-SA-4.0 |
| JCommonSenseQA | QA | 9012 | 1126 | 1126 |
github huggingface |
CC-BY-SA-4.0 |
| JAQKET | QA | 23335 | - | - |
ダウンロードページ huggingface |
CC-BY-SA-4.0 |
| JaQuAD | QA | 31748 | 3939 | 4009 |
github huggingface |
CC BY-SA 3.0 |
| BSD | 翻訳 | 20670 | 2120 | 2189 |
github huggingface |
CC BY-NC-SA 4.0 |
| JSICK | 文ペア分類/翻訳 | 4500 | - | 4927 | huggingface | CC-BY-SA-4.0 |
| ODEX | 文書生成 | 164 | - | - | huggingface | CC-BY-SA-4.0 |
| Elyza tasks 100 | 文書生成 | 0 | 0 | 100 | huggingface | CC-BY-SA-4.0 |
| xwinograd | QA | 0 | 0 | 959 | huggingface | CC-BY-4.0 |
| xlsum | 要約 | 7110 | 889 | 889 | huggingface | CC-BY-NC-SA-4.0 |
| MGSM | 数学 | 0 | 0 | 250 | github | CC-BY-4.0 |
| TyDiQA | QA | 4390 | 455 | 0 | huggingface | apache-2.0 |
データセット概説
後述の「測れる能力」はチャットモデルを前提にする場合、指示に応答する能力も同時に測られる。
MARC-ja
アマゾンのレビューに対してpositive、negativeのラベルをつけるタスク。選択肢はこの2つのみ。JGLUE。
測れる能力:文意を汲み取る力
JCoLA
Japanese Corpus of Linguistic Acceptabilityの略。ある文章が日本語として成り立っているか(容認できるか)を判定するタスク。同じことを表す二つの文章が提示され、どちらがより自然な表現かを回答する。JGLUE。
測れる能力:日本語の構成能力(ネイティブ力?)
参考
JSTS
文章ペアがどの程度似ているかを[0, 5]の範囲で答えるタスク。完全一致で5、完全に違う場合に0。JGLUE。
測れる能力:日本語の表現の意味理解とニュアンス?
JNLI
2つの文章の間に成立する推論的関係を選択するタスク。一方を前提、他方を仮説としたときに、前提から仮説が導けるときに含意、同時に成立し得ないとき矛盾、どちらとも言えないときに中立と判定する。JGLUE。
測れる能力:日本語の意味理解と妥当な推論能力
JSQuAD
質問に対して提示された文章から該当箇所を抽出する。JGLUE。
測れる能力:質問の意図理解、正確な抽出(抜き出しの際に文字列が変化しない)
JCommonSenseQA
質問に対して選択肢から答えを選択する。JGLUE。
測れる能力:常識力
JSNLI
SNLIを日本語に訳したもの。やってるタスクはJNLIと同じ。ソーシャルワーカーによるクオリティチェックあり。
JAQKET
選択肢から選ぶクイズ問題。JCommonSenseQAより専門的な知識が求められる。
測れる能力:広範な知識力
JaQuAD
JSQuADと同じタスク。wikipediaの文章に対してクラウドソーシングで質問文を生成。
測れる能力:質問の意図理解、正確な抽出(抜き出しの際に文字列が変化しない)
BSD
ビジネスシーンの対訳データセット。
測れる能力:日本語→英語、英語→日本語の翻訳能力
JSICK
文ペア分類のSICKのソーシャルワーカーによる日本語訳。文の類似度推定と推論的関係を推定する(JSTS+JNLIと同じ)。翻訳元の英語もペアになって提供されている。
測れる能力:日本語の意味理解と妥当な推論能力、日本語の表現の意味理解とニュアンス?
ODEX
コード生成タスク。複数言語ある中の日本語サブセット。
測れる能力:コード生成能力
ELYZA tasks 100
総合的な日本語応答能力を測るもの。ロールプレイや数学、短編作成、要約、4択問題などさまざまなタスクが含まれる。タスク自体は容易で小学生高学年くらいであれば解けそうなものが多い。
測れる能力:総合力?
xwinograd
xwinogradの日本語サブセット。穴抜けの文章が提示され、選択肢から文脈上適当なものを選ぶタスク。2択なので乱択でもaccuracyが50は出る。
測れる能力:文脈理解力
xlsum
xlsumの日本語サブセット。ウェブ上の記事を短く要約するタスク。
測れる能力:要約能力
MGSM
Multilingual Grade School Mathの略。GSM8Kデータセットのサブセットを多言語に翻訳したもの。日本語のデータも存在。提案論文ではCoTを使って解いている。
TyDiQA
closed QA。wikipediaの文章(と思しきもの)に対して関連する質問が付与されている。JSQuADなどとほぼ同じ形式。
Discussion