Open4
文書検索の日本語データセットのメモ
この文書について
- 目的: 文書検索タスクに対する日本語データセットの情報を収集したい
- この文書における文書検索タスクとは,一般的なアドホック文書検索タスクのこと
- つまり,テキストのクエリを入力として,文書集合を対象として検索を行い,適合文書が上位くるようなランキングを出力する
- ただし「文書検索」の範囲は広め
- キーワードクエリに限定せず,たとえば,類似文書検索などのタスクも含む
- もし誤りを見つけたり,「こんなのもあるよ!」というのをご存知でしたら @nak_6 までご一報いただけると嬉しいです
容易に利用可能なデータセット
- 申請書などの手続きが不要なデータセット
利用可能なデータセット
- Amazon 商品検索データセット
- AI 王クイズデータセット
- URL: https://sites.google.com/view/project-aio/dataset
- クエリ: クイズの問題文
- クイズ作家,もしくはクイズ経験者が人手で作成
- 文書: タイトル+Wikipedia のパッセージ
- 段落で分割
- クイズの答えを含むパッセージを適合パッセージとする
- Mr. TyDi
- URL: https://github.com/castorini/mr.tydi
- 多言語質問応答データセットである TyDi QA データセットをもとに作成された
- 日本語を含む
- XOR-TyDi QA
- URL: https://github.com/AkariAsai/XORQA
- Mr. TyDi と同様に TyDi QA データセットをもとに作成された
- WikiCLIR
- URL: https://www.cs.jhu.edu/~kevinduh/a/wikiclir2018/
- Wikipedia を対象とした検索データセット
- LocalgovFAQ
- Japanese FAQ dataset for e-learning system
- URL: https://doi.org/10.5281/zenodo.2783642
- FAQ 検索
- Wikimarks
- URL: https://trema-unh.github.io/wikimarks/
- Wikipedia から自動生成された多言語検索データセット
- 日本語を含む
- Japanese FAQ dataset for e-learning system
- URL: https://zenodo.org/record/2783642#.ZKGKJezP1qs
- FAQ 検索
- (mMARCO)
- URL: https://github.com/unicamp-dl/mMARCO
- (日本語は Mr. TyDi の転用っぽいので省略)
- (MIRACL)
- URL: https://project-miracl.github.io/
- (日本語は Mr. TyDi の転用っぽいので省略)
文書検索に転用できそうなデータセット
- JSQuAD
- URL: https://github.com/yahoojapan/JGLUE
- 日本語言語理解データセット JGLUE の一部として作成された質問応答データセット
- NTCIR-15 DataSearch / NTCIR-16 DataSearch 2
- URL: https://ntcir.datasearch.jp/
- クエリに対して統計データ(Excel や CSV など)を検索するデータセット
- 日本語のクエリと e-Stat の統計データ(PDF/Excel/CSV)とそのメタデータが公開されている
- 統計データをすべてテキストに変換すれば文書検索データセットとして転用可能
- トレンドクエリデータセット
- URL: https://doi.org/10.5281/zenodo.45056
- Google トレンドなどから収集されたクエリ(トレンドクエリ)のデータセット
- 適合性判定は存在しないが,弱教師あり学習などで転用可能
申請等が必要なデータセット
- NTCIR 系全般
- NTCIR-1 / NTCIR-2
- 論文検索データセット
- NTCIR-3/4/5/6/7/8 CLIR
- ニュース(新聞)検索
- NTCIR-3/4/5/6 PATENT
- 特許検索
- NTCIR-3/4/5/6 QA
- 質問応答
- NTCIR-3/4/5 WEB
- Web 検索
- (その他にもあると思うが一旦ここまで)
- NTCIR-1 / NTCIR-2
- 言論マップコーパス
過去に入手可能だったが現在は入手不可なもの
- NTCIR-13 OpenLiveQ-1 / NTCIR-14 OpenLiveQ-2
- URL: http://www.openliveq.net
- コミュニティQA(Yahoo! 知恵袋)における質問検索