🐉

中国語文書VQAデータセットの現状についてまとめてみた

に公開

はじめに

はじめまして、文書理解(Document Understanding)分野に興味がある大学院生です。研究で「中国語の文書VQAデータセット」について調べる機会があったので、ついでに記事にしてみました。なんで日本語のデータセットについて調べないのかと思われる方もいらっしゃるかもしれませんが、日本語の文書VQAデータセットの現状については、こちらの論文で一部まとめたので、今回は中国語についてまとめてみたという次第です。

VQAとは

VQAとはVisual Question Answeringの略で、画像とそれに関する質問が与えられるので、質問に正しく回答するというタスクです。今はVLMで解くのが主流です。

例えば以下の画像のようなタスクです。


Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi
Parikh. Making the v in vqa matter: Elevating the role of image
understanding in visual question answering. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, pages 6904–
6913, 2017. より引用。

回答の形式や内容はタスクによって様々でして、回答の形式については、

  • Yes or No のどちらかで回答する形式
  • 選択肢が与えられる or 事前に分かっているので正しい選択肢を選ぶ形式
  • 自由回答形式(好きに文章を生成するイメージ)

がありますし、タスクの内容について言えば、画像に映っているものを答える単純なものもあれば、画像に映っている物体の数をカウントしたり、最近は複雑な推論を経ないと回答できないような難しいものもあったりします。

文書VQAとは

文書VQAとは、文書に対するVQAタスクです。文書とは、例えばスライドやレポート、論文などのような、人間が読み書きすることを目的に作られた、テキストを含むデータのことです。ImageNetのような自然画像との大きな差分は、やはりテキストが画像として入っていることだと思います。1枚のスキャン画像を対象とすることもありますし、数十〜数百ページにもおよぶ長大なPDF文書を対象とすることもあります。そのため文書と言っても色々なデータフォーマットがありますが、そういう文書に対するVQAタスクを文書VQAと言います。

文書VQAタスクの例は以下のものです。


Mathew, Minesh, Dimosthenis Karatzas, and C. V. Jawahar. "Docvqa: A dataset for vqa on document images." Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2021. より引用

中国語の文書VQAデータセット

2026年2月現在、中国語に絞ると、以下のような文書VQAデータセットがあります。

  • DuReader_vis
  • DocVQA-ZH
  • MosaicDoc
  • MDCD-VQA

上2つのDuReader_visとDocVQA-ZHは2022年以前の論文なので、VLM時代より一昔前の簡単めなタスク、下2つのMosaicDocとMDCD-VQAはVLM時代に合った難しめのタスク、という印象です。

それぞれの論文はガッツリ読んだわけではなくてあくまで流し読みしただけなので、各論文の内容は箇条書きベースでまとめました。

DuReader_vis

  • 論文タイトル:DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering
  • 論文ページ:https://aclanthology.org/2022.findings-acl.105/
  • ACL 2022 採択
  • データは以下のGitHubで公開されています
    https://github.com/baidu/DuReader/tree/master/DuReader-vis
  • タスク内容
    • Webページのスクショ画像が大量にある状態で質問が与えられるので、その質問に回答する
      • よくあるVQAは画像1枚に対して質問が来ることが想定されているが、本データセットはそうではない
      • 言い換えると、回答の際に参照するべきデータが1つに決まっておらず、集合として与えられた状態で、そこから参照データをretrieveして回答する必要がある。
  • データセットのサンプルは以下の通りです。

DocVQA-ZH

  • 2021年に開催された機械学習コンペで用いられたデータセット
  • 保険関連のスキャン文書に対するVQAデータセット
  • コンペのページ:http://ailab.aiwin.org.cn/competitions/49
  • MDCD-VQAの論文を読むと、以下のように書かれているので、現在データは入手できないとのこと。おそらくコンペ主催者が独自に持っている社内データなのかな?と思います。対応する論文は無さそうです。

    DocVQA-ZH is a competition dataset that contains various types of scanned documents related to insurance scenarios such as medical bills or cases. However, the download for this dataset is currently unavailable due to the conclusion of the competition.

MosaicDoc

  • 論文タイトル:MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding

  • 論文ページ:https://arxiv.org/abs/2511.09919

  • GitHubリポジトリ:https://github.com/DOCLAB-SCUT/MosaicDoc

    The code and dataset will be sorted out and made open-source as soon as possible.

    と書かれていますが、2026年2月現在未だに公開されていないです。

  • タスク内容

    • 英語と中国語のベンチマーク
    • 文書VQAのみならず、OCR、読み順特定、位置特定といった文書に関する様々なタスクからなるベンチマークのようです。
  • Agenticな手法でベンチマークを自動生成したようです。最近の文書理解タスクのデータセットはAgenticでないにしても半自動もしくは自動生成するものが多い印象です。

  • データセットのサンプル

MDCD-VQA

  • 論文タイトル:Towards Multi-Domain Chinese Document VQA: a New Dataset and Baseline Method

  • ICLR 2025に提出されたようだが、著者自身がなぜか撤回しています

  • OpenReviewのページはこちら
    Towards Multi-Domain Chinese Document VQA: a New Dataset and Baseline Method | OpenReview

  • その後どこかの学会に採択されたようには見えない。なので当然データセットも公開されていないです。

  • データセットのサンプル

    • 様々なドメインから文書画像を取得しているようです。

まとめ

中国語の文書VQAデータセットはこれまでいくつか提案されてきましたが、最近の強いVLMを評価できるようなデータセットはまだ公開されていないようです。一番有望なのはMosaicDocだと感じています。これが公開されたらしばらくはこの分野のモデルを適切に評価できるベンチマークになりそうだなと思いました。

Discussion