📑
EasyOCR で表組み(?)された日本語文書を文字化するメモ
行政文書みたいなやつとか, 請求書みたいな表組み(?)された文書をうまくテキスト変換したい...
日本語対応の OCR は以下にまとめがありますが...
EasyOCR はありません. が, 精度はいい感じでした!
EasyOCR
Apache 2.0 ライセンスで使えて良き良きです.
とりあえず適当に競売の入札書類を使って, huggigface demo で認識しました.
Voila!
他の OCR との比較
NDLOCR ではうまく認識できませんでした.
(パラメータ変えればなんかうまくのかもはしれませんが, 右上の 32 号とかも認識できていないので, 書物的なの以外は苦手そうです)
PaddleOCR は未検証です.
その他比較記事
日本語と英語混在の場合は PaddleOCR のほうがいい感じですかね.
まとめ
- EasyOCR : 表組み化? 文書とか
- NDLOCR : 縦書きとか, 書物系とか.
- PaddleOCR : 英語混在, 傾きありな文章とか, ポスターとか
みたいな感じで棲み分けて利用するといいでしょうか...
TODO
- https://digitallab.smfl.co.jp/easyocr にあるように, 表組みデータを Excel シートに変換したりする
Discussion