Open4

文書検索の日本語データセットのメモ

Yu NakanoYu Nakano

この文書について

  • 目的: 文書検索タスクに対する日本語データセットの情報を収集したい
    • この文書における文書検索タスクとは,一般的なアドホック文書検索タスクのこと
    • つまり,テキストのクエリを入力として,文書集合を対象として検索を行い,適合文書が上位くるようなランキングを出力する
    • ただし「文書検索」の範囲は広め
      • キーワードクエリに限定せず,たとえば,類似文書検索などのタスクも含む
  • もし誤りを見つけたり,「こんなのもあるよ!」というのをご存知でしたら @nak_6 までご一報いただけると嬉しいです
Yu NakanoYu Nakano

容易に利用可能なデータセット

  • 申請書などの手続きが不要なデータセット

利用可能なデータセット

文書検索に転用できそうなデータセット

  • JSQuAD
  • NTCIR-15 DataSearch / NTCIR-16 DataSearch 2
    • URL: https://ntcir.datasearch.jp/
    • クエリに対して統計データ(Excel や CSV など)を検索するデータセット
      • 日本語のクエリと e-Stat の統計データ(PDF/Excel/CSV)とそのメタデータが公開されている
      • 統計データをすべてテキストに変換すれば文書検索データセットとして転用可能
  • トレンドクエリデータセット
Yu NakanoYu Nakano

申請等が必要なデータセット

  • NTCIR 系全般
    • NTCIR-1 / NTCIR-2
      • 論文検索データセット
    • NTCIR-3/4/5/6/7/8 CLIR
      • ニュース(新聞)検索
    • NTCIR-3/4/5/6 PATENT
      • 特許検索
    • NTCIR-3/4/5/6 QA
      • 質問応答
    • NTCIR-3/4/5 WEB
      • Web 検索
    • (その他にもあると思うが一旦ここまで)
  • 言論マップコーパス

過去に入手可能だったが現在は入手不可なもの

  • NTCIR-13 OpenLiveQ-1 / NTCIR-14 OpenLiveQ-2
Yu NakanoYu Nakano