🤖

LLMを用いてレシートからの情報抽出を始めようとする話

2024/07/18に公開

WEDでMLエンジニアやDSもしている園芸係です。普段は、社内の窓際と家のベランダでたくさんの植物を育てています。

WEDでは、お客さんからレシートを買い取るサービスONEを開発運用しています。
そして、買い取ったレシート毎に、店舗情報や購買時間、商品名やその値段などの情報を抽出します。
それらの抽出・集積した情報は、他社の商品開発や分析マーケティングに使用されます。

ONEでのレシートからの情報抽出は大きく2段階に分けて処理されます。さらに、後者は3つの記事に分かれています。

レシートのOCR
- OCR の値段は安くクラウドサービスを使用しています。
OCRされた文字列から必要な情報の抽出(Annotate)
- 自社開発。今回の記事の中心。
- レシート情報の抽出-推論編-
- VertexAI Online Predectionの運用

これまで

店舗情報や商品名の抽出は正規表現を使って取得していました。
チェーン店毎に、表記の仕方、印刷名が違い、それらに合わせて表記を調整するということを行なっていました。

正規表現の例1	正規表現の例2

正規表現が多くなってくると、その管理が難しいという問題が起こってきました。また、正規表現を使う限り、どうみても不要な情報も抽出してしまうという問題も見つかりました。

そう空気読んで意味を意味を考えてくれるもの、と言えば、AI です。
今回、レシートからの情報抽出にも長けていそうということで、LLM モデルを採択しました。
レシートは、独特の表記が多く、これに対応するため、配布されている日本語モデルに対し、Fine Tuning を行いました。

Fine Tuning に使用した教師データは以下のように実データではなく、レシートっぽいデータを作成しました。

これによって、商品名は1行毎に区切られ、かつ「クーポン」「10円引」など明らかに商品名や値段とも違うものは含まれないようになりました。
以下の例は、上のレシートの OCR, Annotate の結果となります。

WED はレシート買取アプリ「ONE」を開発運営。独自開発の高精度 OCR 基盤で累計 10 億枚のレシートを収集・利活用する、業界唯一無二の購買データプラットフォームを展開。Philosophy「あたりまえを超える」のもと、ワクワクするプロダクト体験の提供と新たな市場創造を目指しています。