NDLTSR (NDL Table Structure Recognition)を試す

2024/04/26に公開

概要

NDLTSR (NDL Table Structure Recognition)は以下のように説明されています。

資料画像に含まれる表の構造を認識するプログラムを公開しています。
座標付きのOCRテキストデータと組み合わせることで表中に含まれるテキストデータを構造化する用途に利用できます。
参考(外部リンク):次世代デジタルライブラリーへの新機能(表の構造化)の追加及び新機能のソースコード及びデータセットの公開について
本プログラムにより、国立国会図書館が公開しているNDLTableSetを学習した機械学習モデルによる表構造の推論を行えるほか、LORE-TSR(外部リンク)と同様の方法により別途利用者が用意したデータセットによる再学習を行うことが可能です。

ノートブック

以下のノートブックを用意しました。

https://colab.research.google.com/github/nakamura196/000_tools/blob/main/NDLTSR.ipynb

以下のように、「ランタイム」 > 「すべてのセルを実行」 からお試しいただけます。

結果

以下のような認識結果が出力されます。

参考

台湾総督府農業試験所 編『台湾総督府農業試験所彙報』第197号 甘藷の生育、収量並に品質に及ぼす懽漑の影響,台湾総督府農業試験所,昭和15-19. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/1046122 (参照 2024-04-26)

https://dl.ndl.go.jp/pid/1046122/1/1

注意

以下のように公式の説明がありますが、本プログラムで得られるのは表の構造情報のみである点にご注意ください。

本プログラムが推論できるのは、表の構造情報(各セルの矩形座標及びセル間の関係性を表す数値情報)であるので、プログラム単体でOCR処理プログラムとして利用することはできません。
次世代デジタルライブラリーの機能と同様の処理を行うためには、別途座標付きテキストデータを出力するOCR処理プログラムが必要です。

まとめ

NDLTSR (NDL Table Structure Recognition)の試行にあたり、参考になりましたら幸いです。

Discussion