☔
悪天候も追加して、外看板のOCRモデル評価
前書き
ビジネス文書のOCRの論文を急遽読みたくなり、検索したら最近でサーベイがあったと思い読み始めた
そしたら外看板だし?サーベイ?って感じ
丁度友達がデジタルサイネージの契約考えているの聞いたとこだし、
他の用事キャンセルしたし、
ざっと午後から半日で本文読んだ(一部、細かい情報は飛ばした)自分の理解でかく
まあ、読んで考えたこと再認識して、何かに役立てる!
1 どんなもの
外看板のOCR精度を多数のモデルで評価(cnn,transformer)
edgeを意識、悪天候は人工加工
2 思ったこと
やっぱ人工データでも作って、学習、評価は改めて使うべき
役立つ外看板をOCRしてアプリ連携ってけっこうある
3 どうやって有効だと検証した?
悪天候を加工して作成
多数モデルで評価

使ったデータセットの画像

霧と雨の加工をデータセットに適用した画像

画像そのまま渡した結果 Qwenが強い(QwenはOCRの学習もしているとのこと)
また、折れ線グラフでスケール性が確認できる

文字部分を切り出した場合、CNNも評価対象で、一番天候悪化等ではCNNが一番
使い方によっては、軽くて強い!
4 議論はあるか?
論文として、代表的なモデルの構成図を載せてもよくない?
フル画像のも、CNNを何かと組み合わせて比べたほうがよくない?
あとがき
記事よかったら、いいね♡ 押してね!
Discussion