Gemini 2.0 FlashのOCRがコスパと高精度で話題になってたので検証してみた
はじめに
Gemini 2.0 Flashの一般提供開始
Gemini 2.0 Flashは、Googleが開発した最新の大規模言語モデルであり、2024年12月に発表されました。このモデルは、前世代のGemini 1.5に比べて大幅な性能向上を実現し、特にマルチモーダル機能(テキスト、画像、音声、動画の入力に対応)を強みとしています。
そしてこのモデルが2025年2月5日(米国時間)に一般公開されたみたいですね。
低コスト×マルチモーダルの性能がかなり高い とSNSで話題だったのでOCRの観点で早速試してみました。
使ってみた
Google AI Studioで無料で利用可能です。今回はこちらで実行してみました。
Vertex AI Studioでも利用できるみたいですね。
1. 領収書(逆さま、ななめ)
プロンプト
この画像のテキストを抽出してください。できるだけ原文の改行やフォーマットを保持したままで出力してください。
表形式であれば同じように表形式で出力してください。
取り込んだ画像
結果
かなり読み取りにくい角度だと思いますが、登録番号などほぼ100%正確に出力できてますね。
2. 手書き(ななめ)
プロンプト
この画像のテキストを抽出してください。できるだけ原文の改行やフォーマットを保持したままで出力してください。
表形式であれば同じように表形式で出力してください。
取り込んだ画像
※個人名のみマスキングをかけております
結果
手書きの文字もかなり読み取りにくい対象だと思いますが、こちらもほぼ100%正確に出力できてますね。
(顔文字が、"が"という平仮名に読み替えられているところが誤ってます)
3. 領収書(逆さま、ななめ)マークダウン形式
プロンプト
この画像のテキストをマークダウン形式にして抽出して
取り込んだ画像
1と同様
結果
結果(長くなってしまったのでネストします)
お部屋番号 ROOM NO
1417
ご到着日 ARRIVAL
2024/08/26
領収書
RECEIPT
お名前 NAME
澤木慎哉
ご出発日 DEPARTURE
2024/08/31
様
備考 REMARKS
GRANBELL
HOTELSUSUKINO
〒064-0805
TEL:011-252-7403
北海道札幌市中央区南5条西2丁目6-2
MAIL susukino@granbellhotel.jp
ご宿泊人数 PERSONS
1名様
発行日時 DAY TIME ISSUED
24/08/27 14:00
日付
部屋番号
ご利用明細
料金
お支払い金額
DATE
ROOM NO
EXPLANATION
DEBIT
8/26
1417 クレジットカード(VISA/MASTER))
CREDIT
68,160
8/26
1417
ご宿泊費
13920
8/27
1417
ご宿泊費
13,920
8/28
1417
ご宿泊費
12,960
8/29
1417
ご宿泊費
12,960
8/30
1417
ご宿泊費
14,400
ご利用金額には、サービス料・消費税が含まれます。
SUS
BALANCE
残高
8%対象合計/Total (8%)
合計金額
68160
0
0
0
68160
6196
0
内消費税/Tax (8%)
内消費税/Tax (10%)
10%対象合計/Tota | (10%)
宿泊税/Accommodation Tax
PAID 登録号/Registration No.T8380001018772
24.8.26
PAID
FRANBELL HOTEL
プロンプトが雑すぎたのか、マークダウン形式にはならず。
jsonも試してみましたが、同様に雑すぎたのか思ったようには出力できず。
コスト
下記の通り、$0.10~0.40/100万トークンと他のLLMと比べてもかなり安く、
1ドルで6000枚ほどのPDFを読み取ることができるようです。
参考:https://ai.google.dev/pricing?hl=ja#2_0flash
まとめ
- 2025年2月5日(米国時間)に一般公開された
- $0.10~0.40/100万トークン(1ドルで6000枚ほどのPDFを読み取ることができる)でめちゃくちゃ安い
- OCRの精度がかなり高い
今後、チャンスがあればDX Suiteなど主要なOCRとどの程度性能の差があるのか比較検証してみたいと思います。
Discussion