💭

PerplexityProのAI-OCR機能を試してみた

2024/08/02に公開

お疲れ様です。
Jimmyです。

8月に入って時間が取れたのでちょっと試したいことシリーズ。

経緯や背景

日本は以前より紙文化で、他社の兼ね合いも考慮するとすべてデジタル化するのが
難しいというのは現状としてありますので、やはり

「OCRの導入(AI含む)」

については期待を持たれている方も多いと思います。

過去の私の戦歴

かくいう私も

2014年頃は病理医化学細菌検査などで利用するOCR読み取りシステムの開発に携わったり
2019年にはDxSuiteを使ったAI-OCRのPoC、2022年には実際にシステムの構築に携わったり直近でも影のサポート役として若いリーダの背後で温かく?システムの構築を見守っている、

有識者ですw

最近の事情

最近はスマホでもChatGPTなどでOCRが実装されていたりもするので
だいぶ民主化が進んで使いやすくなってきたなと。
普通にあちこちでスマホ画像認証も普通に色々始まってますし、
レシート読み込みなんて普通にあちこちでやってますよね。
(マネーフォワードでレシート読み込み僕も使ってますw)

そこで、ChatGPTの課金は今止めているので詳しい調査はできないのですが、
Perplexity PROがソフトバンクの1年無料キャンペーンで無料で使えているので
こちらでOCRの精度を試してみました。

試してみた

ではPerplexity PROで読み込んでデータ変換してみます。

実際に最近購入した会社でランチ会をした際の明細(僕のなのでこれで清算しないでください・・)

<結果>

ぬおーっ

登録番号がちがうw
TBGって。。

あと
TOスペシャルボックス→TTOAシャポンボックスとなっていて違う

金額もおかしい。
¥0→¥900になってる。

最後は
TOチキン唐揚げ&ポテト→TTOキン肉マンのトン&チキン

ええ??

なぜキン肉マン?(笑)

ただ、最後のトータル金額合計はぴったり合ってました。

文字が小さいから読み取れない?って感じなのですかね。
長いレシートもあるからこれぐらいは読み取ってほしいなと思ったのですが。。

とはいえAI-OCRも民主化がかなり進んでいるので、
この辺りを使えば、かなりAIの恩恵は受けられると思いました。

格安でシステム化できそうだなと。

フリーミアム化して稼ぐこともできるかも?

ざっくり設計するなら

・取引先
・金額
・日付
・登録番号
といったハイパーケア項目は写真とデータで1次チェックして
写真が枠内にしっかり写っているかなどのチェックをしてそのままデジタル保存。

多少項目が合ってない部分もありますが、そこは後からでも修正できると思うので、
全部データの手修正が必要なら安いパンチャーにあとから手直ししてもらう、
でもいいのかなと思いました。

最後に余談

私のAIアンチエイジング写真(一応元ネタは私の写真がベース)で遊んでまして、
画像で動画を作成してみました。
https://www.viggle.ai/library-detail/6726d1e1-9b6e-400b-a487-4cf3a93bb9b2

なんかこの動画、大谷サーン感がありますね。。

あと、とある方に触発されて
何か私も肩書きほしいなと思うようになり、

IT番長ではなく、
IT芸人として生きることにしましたww

ではまたこの辺で。
(30分ぐらいで書き上げるので乱筆乱文ですみません!!)

Accenture Japan (有志)

Discussion