🍉
Claude 3.5 SonnetでOCR検証した領収書をGPT-4o、Gemini 1.5 Flashでも検証してみた
はじめに
先日、Claude 3.5 SonnetでOCR検証する記事を書いたのですが、GPT-4o、Gemini 1.5 Flashでも検証してみました。
また、比較できるように整理してみました。
検証結果
ファイル1
GPT-4oは登録番号が正確にでている。Gemini 1.5 Flashは3つのLLMの中では劣るか。
Input領収書画像
Output解析結果
LLM | 支払先会社名 | 発行日 | 支払金額税込 | 通貨 | 登録番号 | 注記 |
---|---|---|---|---|---|---|
Claude 3.5 Sonnet | ジビエとラムしゃぶダイニング しゃぶしゃぶらぶ家 | 2024/07/17 | 93,450 | JPY | T44300010744434 | 人数: 21名, クレジットカード(AirPay)での支払い |
GPT-4o | しゃぶしゃぶぶらふ家 | 2024/07/17 | 93,450 | JPY | T4430001074434 | N/A |
Gemini 1.5 Flash | シエナとラムしゃぶ&ワイン | 2024/07/17 | 93,450 | JPY | N/A | N/A |
ファイル2
斜めの画像は、どのLLMでも画像解析が難しそう。
Input領収書画像
Output解析結果
LLM | 支払先会社名 | 発行日 | 支払金額税込 | 通貨 | 登録番号 | 注記 |
---|---|---|---|---|---|---|
Claude 3.5 Sonnet | APA HOTELS & RESORTS | 2024/06/08 | 61,400 | JPY | T1440032 | パッケージプランの宿泊料金が含まれています。詳細な内訳は画像に記載されています。 |
GPT-4o | アパホテル | 2024/06/08 | 61,400 | JPY | T0100401047434 | N/A |
Gemini 1.5 Flash | APA HOTELS&RESORTS | 2024/06/08 | 61,400 | JPY | T7010401047434 | N/A |
ファイル3
GPT-4oはClaude 3.5 Sonnetと同じ回答。Gemini 1.5 Flashは若干劣るか。
Input領収書画像
Output解析結果
LLM | 支払先会社名 | 発行日 | 支払金額税込 | 通貨 | 登録番号 | 注記 |
---|---|---|---|---|---|---|
sample3.png | 東京空港交通株式会社 | 2024/06/23 | 3,600 | JPY | T8010001061264 | 羽田空港から成田空港への片道乗車券、大人1人分 |
GPT-4o | 東京空港交通株式会社 | 2024/06/23 | 3,600 | JPY | T8010001061264 | N/A |
Gemini 1.5 Flash | アクセスネクスト株式会社 | 2024/06/23 | 3,600 | JPY | T8010001061264 | N/A |
さいごに
GPT-4oはClaude 3.5 Sonnetと同じくらいの画像解析ができそうなことがわかりました。Gemini 1.5 Flashは若干劣る印象でした。
みなさまのなんらかの参考になれば幸いです!
Discussion