🦔

日本語言語データセットまとめ

2023/05/15に公開約3,100字

タスクの種類

LLMで利用するであろうタスクに絞って書いています。

タスク 解説
要約 与えられた文章を短くする
文章分類 与えられた文章に(与えられた)ラベルを付与する
文ペア分類 与えられた二つの文章の関係性を分類する
QA 与えられた質問に答える。特に、文脈が与えられたQAをclosed QA、与えられないQAをopen QAと呼ぶ
翻訳 与えられた文章を別の言語に変換する
校正 文章の誤りを修正する
文書生成 与えられた指示を満たす文書を生成する

データセット

データセット タスク train val test link license remarks
MARC-ja 文章分類 187528 5654 5639 github
huggingface
CC-BY-SA-4.0 JGLUE, githubにjsonファイルあり
JCoLA 文章分類 369 - - paper
presentation
CC-BY-SA-4.0 JGLUE, リリースされていない?
JSTS 文ペア分類 12463 1457 1589 github
huggingface
CC-BY-SA-4.0 JGLUE, githubにjsonファイルあり
JNLI 文ペア分類 20117 2434 2508 github
huggingface
CC-BY-SA-4.0 JGLUE, githubにjsonファイルあり
JSNLI 文ペア分類 533005 - 3916 paper
huggingface
CC-BY-SA-4.0 SNLIを日本語に訳したもの。ソーシャルワーカーによるクオリティチェックあり
JSquAD QA 63870 4475 4470 github
huggingface
CC-BY-SA-4.0 JGLUE, githubにjsonファイルあり, closed QA
JCommonSenseQA QA 9012 1126 1126 github
huggingface
CC-BY-SA-4.0 JGLUE, githubにjsonファイルあり, 選択肢付きopen QA
JAQKET QA 23335 - - ダウンロードページ
huggingface
CC-BY-SA-4.0 選択肢付きopen QA
JaQuAD QA 31748 3939 4009 github
paper
huggingface
CC BY-SA 3.0 closed QA, githubにjsonファイルあり, wikipediaの文章に対してクラウドソーシングで質問文を生成
BSD 翻訳 20670 2120 2189 github
huggingface
CC BY-NC-SA 4.0 ビジネスシーンの対訳データセット
JSICK 文ペア分類/翻訳 4500 - 4927 huggingface CC-BY-SA-4.0 文ペア分類のSICKのソーシャルワーカーによる日本語訳。翻訳元の英語もペアになっている
ODEX 文書生成 164 - - huggingface CC-BY-SA-4.0 コード生成タスク, 複数言語ある中の日本語サブセット

参考

Discussion

ログインするとコメントできます