悪天候も追加して、外看板のOCRモデル評価

に公開

前書き

ビジネス文書のOCRの論文を急遽読みたくなり、検索したら最近でサーベイがあったと思い読み始めた
そしたら外看板だし?サーベイ?って感じ
丁度友達がデジタルサイネージの契約考えているの聞いたとこだし、
他の用事キャンセルしたし、
ざっと午後から半日で本文読んだ(一部、細かい情報は飛ばした)自分の理解でかく
まあ、読んで考えたこと再認識して、何かに役立てる!

1 どんなもの

外看板のOCR精度を多数のモデルで評価(cnn,transformer)
edgeを意識、悪天候は人工加工

2 思ったこと

やっぱ人工データでも作って、学習、評価は改めて使うべき
役立つ外看板をOCRしてアプリ連携ってけっこうある

3 どうやって有効だと検証した?

悪天候を加工して作成
多数モデルで評価

使ったデータセットの画像

霧と雨の加工をデータセットに適用した画像

画像そのまま渡した結果 Qwenが強い(QwenはOCRの学習もしているとのこと)
また、折れ線グラフでスケール性が確認できる

文字部分を切り出した場合、CNNも評価対象で、一番天候悪化等ではCNNが一番
使い方によっては、軽くて強い!

4 議論はあるか?

論文として、代表的なモデルの構成図を載せてもよくない?
フル画像のも、CNNを何かと組み合わせて比べたほうがよくない?

あとがき

記事よかったら、いいね♡ 押してね!

Discussion