Open2

ドキュメント解析の動向を追いかける

ピン留めされたアイテム
QlutoQluto

そもそもドキュメント解析 (Document Understanding) って?

古くからは OCR (Optical Character Recognition) として実用化が進められてきており、文字領域の検出 (Text Detection)、文字の認識 (Text Recognition) といった段階を踏みながら画像からの文字認識を行うための技術が磨かれてきていました。文字領域の検出と文字の認識とを一気に行う Text Spotting という手法も取り扱われています。
ここ数年では文字を認識するだけではなく、ドキュメント内に何かしらの意図を持って配置された文字列の意図を汲み取るような研究、画像や図表の意味を読み取るドキュメント解析へとより発展的な話題へと広がりつつあります。

ドキュメント解析の世の中の潮流に対する雑感

比較的広く使われているであろう Google Cloud Vision API などの汎用的な目的における文字検出・文字認識のシステムは文字列認識のためにはとても有効なものです。
認識させる画像の質が悪いといったことや読み取りが難しい崩れた手書き文字や斜めに書かれた文字列などの認識は難易度が高くチャレンジングでありつつも、ざっと研究動向を追いかけてみた限りでは研究に携わっている人の関心は他の問題領域に向いていることが多そうだと感じました。

実際、読み取るドキュメントの種別やドメイン知識を考慮したドキュメント解析のプロダクトも生まれ始めています。Google Document AI というプロダクトは請求書や身分を証明するカードなどを処理するような項目抽出の目的に長けたものとしてアピールされていそうです。

どこでどんな研究が行われているか?

この手の研究は応用範囲も多岐にわたること、画像からの意味理解という幅広いコンテクストで捉えられることから、追いかけがいのある国際会議が多そうです。

画像処理といえばの CVPR から、ICDARという正にこのような問題に向き合った国際会議もありますし、KDDやACL、EMNLP、自然言語処理学会年次大会などでも取り上げられる話題でもあり、研究自体は継続的にかつ盛んに行われているといえます。

テキストに目を向けた研究

文字検出と文字認識の技術はこれまで長く研究がされてきているのに対し、文書の意味理解や構造に根ざした研究はまだ日が浅く、さらには両者を合わせてよりよい文書理解を行う研究はまだまだ少ないという状況です。

“These layout analysis efforts are parallel to OCR and have been largely developed as independent techniques that are typically evaluated only on document images. As such, the synergy between OCR and layout analysis remains largely under-explored.”
(これらのレイアウト解析の取り組みはOCRと並行して行われ、一般的に文書画像でのみ評価される独立した技術として開発されてきました。そのため、OCRとレイアウト解析の間の相乗効果は、まだほとんど研究されていません。 - ICDAR 2023 でのコンペティション開催に当たっての声明文より)
Announcing the ICDAR 2023 Competition on Hierarchical Text Detection and Recognition – Google AI Blog

ただ、まだ少ないとはいえ、昨今の大規模データによる事前学習モデルの隆盛に合わせ、LayoutLMDonut のように layout analysis や document parsing を end to end で行う手法も提案されてきています。

データセットに関してはあまり充実しているとは言えない状況で、日本語を取り扱ったものはほぼ見当たらないこと、非商用利用に限定されたものも多いこと、公開されたデータセットもアノテートされている量がごくわずかであるといった課題があるため、オープンなデータセットに頼ることは現段階では難しい状況です。

画像や図表に目を向けた研究

画像のユーモラスさを説明したり、手書きのモックから動くコードを生成したりしていた GPT-4 の発表時デモが記憶に新しいかもしれませんが、OpenAI に限らず数多くの研究が盛り上がっていそうです。
multimodal model として扱われているものはそれこそ Stable Diffusion で有名になった CLIP をはじめ Hugging Face にもいくつか取り上げられています。

CLIP はウェブ上の画像とその周辺テキスト、altテキストなどを大量に集めることで成立したものですが、MatCha の研究を眺めるに、やや限られたところからデータセットを用意していたりかき集めるための工夫を凝らしているようで、図表の解析にあたっては実用に足るレベルに達するのにまだまだ工夫が必要そうな印象を受けました。

QlutoQluto

参考資料

まとめ系の資料