📑

EasyOCR で表組み(?)された日本語文書を文字化するメモ

2023/04/24に公開

行政文書みたいなやつとか, 請求書みたいな表組み(?)された文書をうまくテキスト変換したい...

日本語対応の OCR は以下にまとめがありますが...

https://github.com/taishi-i/awesome-japanese-nlp-resources#OCR

EasyOCR はありません. が, 精度はいい感じでした!

EasyOCR

https://github.com/JaidedAI/EasyOCR

Apache 2.0 ライセンスで使えて良き良きです.

とりあえず適当に競売の入札書類を使って, huggigface demo で認識しました.

Voila!

他の OCR との比較

NDLOCR ではうまく認識できませんでした.
(パラメータ変えればなんかうまくのかもはしれませんが, 右上の 32 号とかも認識できていないので, 書物的なの以外は苦手そうです)

PaddleOCR は未検証です.

その他比較記事

https://buddypia.com/2022/12/15/easyocrとpaddleocrの比較/

https://zenn.dev/piment/articles/254dde3ecf7f10

日本語と英語混在の場合は PaddleOCR のほうがいい感じですかね.

まとめ

  • EasyOCR : 表組み化? 文書とか
  • NDLOCR : 縦書きとか, 書物系とか.
  • PaddleOCR : 英語混在, 傾きありな文章とか, ポスターとか

みたいな感じで棲み分けて利用するといいでしょうか...

TODO

Discussion