ChatGPT-4oとGemini-2.0 Flashによる領収書のOCR性能評価
はじめに
こんにちは、アスエネの加藤です。友人の結婚式に参列するべく、久しぶりに靴を買いました。
今回は2月5日に公開されたGemini 2.0 FlashシリーズやChatGPT 4oの性能を調査してみました。
Geminiとは?
Gemini本人に自己紹介してもらいました。
Gemini は、Google によって開発された、大規模言語モデル(LLM)です。まだ開発中ではありますが、以下のようなことができます。
テキストの生成: ストーリー、詩、コード、スクリプト、音楽作品、メール、手紙など、さまざまなクリエイティブなテキスト形式を作成できます。
質問への回答: 質問に対して、包括的で有益な方法で回答します。検索から情報を取得し、まとめて回答することができます。
言語の翻訳: ある言語から別の言語へテキストを翻訳できます。
要約: 長いテキストを要約できます。
Gemini は、Google の最新の技術を駆使して開発されており、継続的に学習し、進化しています。より自然で人間らしいコミュニケーションを目指しており、様々なタスクにおいて、ユーザーの皆様をサポートできることを目標としています。
より詳しい情報や、Gemini の利用方法については、Google の公式発表やドキュメントをご参照ください。
Gemini 2.0 Flashは2024年12月にプレビュー版が公開され、一部界隈で注目されていましたが2025年2月に正式リリースされ、さらにGemini 2.0 Flash Liteというプレビュー版も公開されました。
12月に公開されたモデルとどう違うのか?ChatGPTとの性能はどう違うのか?すでに様々な方面で解析が進められています。アスエネでは領収書の解析も重要なタスクの一つとなっていますので、この記事ではGeminiやChatGPTによる領収書解析の性能分析をしていきます。
利用するデータセット
今回利用するデータセットは、AI-OCRへアップロードされる想定のサンプルデータ200枚の電気/ガス/水道などの領収書です。以下に某電力会社の領収書のサンプルデータを載せています。
アスエネのAI-OCRは毎月大量の領収書をリアルタイムで解析しています。一般的な会計ソフトでは金額がメインですが、アスエネのAI-OCRはCO2計算が主目的であるため、使用量(以後、活動量と呼びます)が重要になります。取得するのは、取引月、活動量、費用となります[1]。
取引月
文字通り、領収書に記載された取引月を示します。3種類の項目のうち最も難しいのがこの取引月です。
- 和暦の場合は西暦に変換する
- 取引期間や支払期限、請求月など、様々な日付情報が入り乱れている
- 11月15日~12月14日など集計日が月をまたぐ請求書の場合、正解値は11月か12月かアスエネ利用者ごとに基準が異なる
特に、和暦については特定の電力会社では「6-8」などと表記されることもあります。一見すると6月8日とも読めそうですが、正解は令和6年8月です。
活動量
活動量は実際に使用した電力量などです。これも地味に厄介で、契約した容量がすぐ隣に記載されていることもあり単位を確認しないと間違えやすいです。以下の例では、推定したいのは「容量の50A」ではなく、「ご使用量の19kWh」です。
費用
これが一番簡単です。他の項目よりも大きく太く記載されていることも多く、目立つところに記載してあることが多いです。消費税の有無などは要注意です。
検証結果
各項目の詳細な結果に移る前にChatGPTとGeminiの総評を載せておきます。結論としては、今回のような領収書から必要な情報を取得する程度のタスクであればGemini 2.0 Flash Liteで十分なようです。
精度
以下の5つのモデルで精度検証を実施しました。
- gpt-4o 2024-08: ChatGPT-4oの2024年8月にリリースされたモデル
- gpt-4o 2024-11: ChatGPT-4oの2024年11月にリリースされたモデル
- gemini-2 flash-exp: Gemini 2.0の2024年12月にリリースされたプレビュー版モデル
- gemini-2 flash-001: Gemini 2.0の2025年2月にリリースされたモデル
- gemini-2 flash-lite: Gemini 2.0の2025年2月にリリースされたプレビュー版モデル
- ChatGPTの11月版は8月版の上位モデルであるため、ChatGPTを使用する際は11月版で問題ない
- Geminiは費用の項目で精度が若干下がるものの、全体的にはLiteが優勢である
- expと001はほとんど同じ性能であるため、名前を変えただけである可能性が高い
- ChatGPTの取引月の精度が高い
- 取引月は単純なOCRだけでない場合も多いので、単純なモデルとしての論理的思考力?はChatGPTの方が上であるといえる
- しかし、GeminiのLiteはChatGPTに肉薄するほど良い性能になってきているため、どんぐりの背比べか?
- 活動量はGeminiの圧勝
- ChatGPTは隣接する契約容量と誤解して推定しているケースが多く、OCR性能についてはGemini(≒Google)の方がノウハウがありそう
- 費用はすべてのGeminiでルールベースに匹敵する性能
速度
精度と同様に速度も計測しました。
- AVE: 平均値
- MED: 中央値
- 75%: 75パーセンタイル
- 95%: 95パーセンタイル
- 水色: 最小値~最大値
ChatGPT vs Geminiでは、Geminiの圧勝でした。平均値で4秒以上の差が開きました。
Geminiに絞ってみてみると、Liteが他より1秒弱くらい速いですが、ワーストケースになると他と変わらないです。
利用料金
GoogleDeepMindも投稿していますが、Geminiはかなりコスパがいいですね。
最後に
AI-OCRによる電気/ガス/水道の領収書の解析に現時点ではGemini(しかもLite)が最適です。今後もChatGPT 4.5など、新しいモデルが出てきた時に検証していきたいです。
-
AI-OCRでも費用(=金額)を取得していますが、これは水の使用量などでは金額が活動量として計算される場合があるためです ↩︎
Discussion