Closed9
QAタスクの日本語データセットを集める
QAタスクの日本語データセットを集めるためのスクラップ
親スクラップ
生成AI下調べ帳
SQuAD 2.0:Stanford Question Answering Dataset
- https://rajpurkar.github.io/SQuAD-explorer/
- 10万件のQAと答えられない質問5万件。
JSQuAD
- https://github.com/yahoojapan/JGLUE
- 上記のJGLUEに含まれ、CC BY-SA 4.0ライセンスで利用可能。
- Wikipediaベースのの質問応答データ。
JCommonsenseQA
- https://github.com/yahoojapan/JGLUE
- 上記のJGLUEに含まれ、CC BY-SA 4.0ライセンスで利用可能。
- 常識推論能力を評価する5択選択式問題。
NIILC Question Answering Dataset
- https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/j_index.html
- Wikipediaベースで、1000件。
- Creative Commons License CC-BY-SAライセンス。
運転ドメインQAデータセット
- https://nlp.ist.i.kyoto-u.ac.jp/index.php?Driving domain QA datasets
- 運転に関するデータ2万件。
- SQuAD 2.0形式。
- 京都大学が提供。
- ブログ記事がベース。
- 著作者の同意はない。
JAQKETクイズデータセット
- https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/
- クイズのデータセット13000件。
- Yahoo!知恵袋データ:Yahoo知恵袋から収集したデータ。
- 学習データに含まれるクイズ問題の著作権は abc/EQIDEN 実行委員会に帰属。
Yahoo! 知恵袋データ(第3版)
- https://www.nii.ac.jp/dsc/idr/yahoo/chiebkr3/Y_chiebukuro.html
- 収録期間:2019年4月1日-2022年3月31日
- 質問数:約206万
- 回答数:約514万
- 大学および公的研究機関の研究者を対象として提供。民間企業等では利用不可。
東京都立大学のe-learningシステムのQAのデータ
このスクラップは2024/04/02にクローズされました