🦔
日本語言語データセットまとめ
タスクの種類
LLMで利用するであろうタスクに絞って書いています。
タスク | 解説 |
---|---|
要約 | 与えられた文章を短くする |
文章分類 | 与えられた文章に(与えられた)ラベルを付与する |
文ペア分類 | 与えられた二つの文章の関係性を分類する |
QA | 与えられた質問に答える。特に、文脈が与えられたQAをclosed QA、与えられないQAをopen QAと呼ぶ |
翻訳 | 与えられた文章を別の言語に変換する |
校正 | 文章の誤りを修正する |
文書生成 | 与えられた指示を満たす文書を生成する |
データセット
データセット | タスク | train | val | test | link | license | remarks |
---|---|---|---|---|---|---|---|
MARC-ja | 文章分類 | 187528 | 5654 | 5639 |
github huggingface |
CC-BY-SA-4.0 | JGLUE, githubにjsonファイルあり |
JCoLA | 文章分類 | 369 | - | - |
paper presentation |
CC-BY-SA-4.0 | JGLUE, リリースされていない? |
JSTS | 文ペア分類 | 12463 | 1457 | 1589 |
github huggingface |
CC-BY-SA-4.0 | JGLUE, githubにjsonファイルあり |
JNLI | 文ペア分類 | 20117 | 2434 | 2508 |
github huggingface |
CC-BY-SA-4.0 | JGLUE, githubにjsonファイルあり |
JSNLI | 文ペア分類 | 533005 | - | 3916 |
paper huggingface |
CC-BY-SA-4.0 | SNLIを日本語に訳したもの。ソーシャルワーカーによるクオリティチェックあり |
JSquAD | QA | 63870 | 4475 | 4470 |
github huggingface |
CC-BY-SA-4.0 | JGLUE, githubにjsonファイルあり, closed QA |
JCommonSenseQA | QA | 9012 | 1126 | 1126 |
github huggingface |
CC-BY-SA-4.0 | JGLUE, githubにjsonファイルあり, 選択肢付きopen QA |
JAQKET | QA | 23335 | - | - |
ダウンロードページ huggingface |
CC-BY-SA-4.0 | 選択肢付きopen QA |
JaQuAD | QA | 31748 | 3939 | 4009 |
github paper huggingface |
CC BY-SA 3.0 | closed QA, githubにjsonファイルあり, wikipediaの文章に対してクラウドソーシングで質問文を生成 |
BSD | 翻訳 | 20670 | 2120 | 2189 |
github huggingface |
CC BY-NC-SA 4.0 | ビジネスシーンの対訳データセット |
JSICK | 文ペア分類/翻訳 | 4500 | - | 4927 | huggingface | CC-BY-SA-4.0 | 文ペア分類のSICKのソーシャルワーカーによる日本語訳。翻訳元の英語もペアになっている |
ODEX | 文書生成 | 164 | - | - | huggingface | CC-BY-SA-4.0 | コード生成タスク, 複数言語ある中の日本語サブセット |
Discussion