🍉

Claude 3.5 SonnetでOCR検証した領収書をGPT-4o、Gemini 1.5 Flashでも検証してみた

2024/07/26に公開

はじめに

先日、Claude 3.5 SonnetでOCR検証する記事を書いたのですが、GPT-4o、Gemini 1.5 Flashでも検証してみました。
また、比較できるように整理してみました。

検証結果

ファイル1

GPT-4oは登録番号が正確にでている。Gemini 1.5 Flashは3つのLLMの中では劣るか。

Input領収書画像

Output解析結果

LLM 支払先会社名 発行日 支払金額税込 通貨 登録番号 注記
Claude 3.5 Sonnet ジビエとラムしゃぶダイニング しゃぶしゃぶらぶ家 2024/07/17 93,450 JPY T44300010744434 人数: 21名, クレジットカード(AirPay)での支払い
GPT-4o しゃぶしゃぶぶらふ家 2024/07/17 93,450 JPY T4430001074434 N/A
Gemini 1.5 Flash シエナとラムしゃぶ&ワイン 2024/07/17 93,450 JPY N/A N/A

ファイル2

斜めの画像は、どのLLMでも画像解析が難しそう。

Input領収書画像

Output解析結果

LLM 支払先会社名 発行日 支払金額税込 通貨 登録番号 注記
Claude 3.5 Sonnet APA HOTELS & RESORTS 2024/06/08 61,400 JPY T1440032 パッケージプランの宿泊料金が含まれています。詳細な内訳は画像に記載されています。
GPT-4o アパホテル 2024/06/08 61,400 JPY T0100401047434 N/A
Gemini 1.5 Flash APA HOTELS&RESORTS 2024/06/08 61,400 JPY T7010401047434 N/A

ファイル3

GPT-4oはClaude 3.5 Sonnetと同じ回答。Gemini 1.5 Flashは若干劣るか。

Input領収書画像

Output解析結果

LLM 支払先会社名 発行日 支払金額税込 通貨 登録番号 注記
sample3.png 東京空港交通株式会社 2024/06/23 3,600 JPY T8010001061264 羽田空港から成田空港への片道乗車券、大人1人分
GPT-4o 東京空港交通株式会社 2024/06/23 3,600 JPY T8010001061264 N/A
Gemini 1.5 Flash アクセスネクスト株式会社 2024/06/23 3,600 JPY T8010001061264 N/A

さいごに

GPT-4oはClaude 3.5 Sonnetと同じくらいの画像解析ができそうなことがわかりました。Gemini 1.5 Flashは若干劣る印象でした。
みなさまのなんらかの参考になれば幸いです!

Accenture Japan (有志)

Discussion