🌮

Amazon Textractを海外のレシートで試してみた

2022/11/03に公開

Amazon Textractとは

2022/11/01,02にアップデートアナウンスが3回ありました。Textract内で用途によってAPIが分かれていて、それぞれアップデートしているようです。

E13B、こういうフォントだそうです(wikipedia)

「やってみた aws textract」で検索すると、他の人がいろいろやっていますのでそちらも見ていただくとよいと思いますが、PDFの事例が多いのかなという印象で、今回は2019年にカンボジア旅行に行ったときのレシートを使ってみます。ちなみにカンボジアはドルで支払えます。

カンボジア、なぜかメキシコ料理の有名店が多かったです。

元データがこちら。幅8センチくらいのレシートです。元の印刷状態がそれなりなのと、3年前なのでけっこうスカスカになっています。

Raw textの結果です。かすれ気味なので心配でしたが、問題ないようです。Est. 2012の部分が istになっている以外は正確に読めています。セグメントがSegment by lineになので、スペースも含めて繋がっています。

セグメントをSegment by wordに変更すると、1単語ずつで区切られて出力されます。

Formsタブでは自動でキーバリューを読み取ります。項目が全部にならないのは、Textract内で決められたキーにマッチした値だけを抽出するからのようです。この値は、データをダウンロードしたときはkeyValues.csvに入っています。

Tableタブです。縦横が埋まっていないときはマージしてくれるみたいですが、unmergedのほうがよさそうでした。ダウンロードするとtable.csvに入っています。

コンビニっぽいお店です。クロワッサンとリッツチーズクラッカーを買ったようです。

これもかなり正確に読めていますね。間違いを探す方が難しいのでは。面白いなと思ったのは、カンボジア語は華麗にスルーされているな、というところです(当たり前？)。

メキシコ料理店で取った写真もオマケで貼っておきます。ちなみに2019年の時点でカンボジアでは紙のストロー使ってましたね。