👀

Gemini 2.0 FlashのOCRがコスパと高精度で話題になってたので検証してみた

2025/02/17に公開

はじめに

Gemini 2.0 Flashの一般提供開始

Gemini 2.0 Flashは、Googleが開発した最新の大規模言語モデルであり、2024年12月に発表されました。このモデルは、前世代のGemini 1.5に比べて大幅な性能向上を実現し、特にマルチモーダル機能(テキスト、画像、音声、動画の入力に対応)を強みとしています。

そしてこのモデルが2025年2月5日(米国時間)に一般公開されたみたいですね。
低コスト×マルチモーダルの性能がかなり高い とSNSで話題だったのでOCRの観点で早速試してみました。

使ってみた

Google AI Studioで無料で利用可能です。今回はこちらで実行してみました。
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp

Vertex AI Studioでも利用できるみたいですね。
https://console.cloud.google.com/freetrial/signup/tos?redirectPath=%2Fvertex-ai%2Fstudio&pli=1&inv=1&invt=AbooVQ

1. 領収書(逆さま、ななめ)

プロンプト

この画像のテキストを抽出してください。できるだけ原文の改行やフォーマットを保持したままで出力してください。
表形式であれば同じように表形式で出力してください。

取り込んだ画像

結果


かなり読み取りにくい角度だと思いますが、登録番号などほぼ100%正確に出力できてますね。

2. 手書き(ななめ)

プロンプト

この画像のテキストを抽出してください。できるだけ原文の改行やフォーマットを保持したままで出力してください。
表形式であれば同じように表形式で出力してください。

取り込んだ画像

※個人名のみマスキングをかけております

結果


手書きの文字もかなり読み取りにくい対象だと思いますが、こちらもほぼ100%正確に出力できてますね。
(顔文字が、"が"という平仮名に読み替えられているところが誤ってます)

3. 領収書(逆さま、ななめ)マークダウン形式

プロンプト

この画像のテキストをマークダウン形式にして抽出して

取り込んだ画像

1と同様

結果

結果(長くなってしまったのでネストします)

お部屋番号 ROOM NO
1417
ご到着日 ARRIVAL
2024/08/26
領収書
RECEIPT
お名前 NAME
澤木慎哉
ご出発日 DEPARTURE
2024/08/31

備考 REMARKS
GRANBELL
HOTELSUSUKINO
〒064-0805
TEL:011-252-7403
北海道札幌市中央区南5条西2丁目6-2
MAIL susukino@granbellhotel.jp
ご宿泊人数 PERSONS
1名様
発行日時 DAY TIME ISSUED
24/08/27 14:00
日付
部屋番号
ご利用明細
料金
お支払い金額
DATE
ROOM NO
EXPLANATION
DEBIT
8/26
1417 クレジットカード(VISA/MASTER))
CREDIT
68,160
8/26
1417
ご宿泊費
13920
8/27
1417
ご宿泊費
13,920
8/28
1417
ご宿泊費
12,960
8/29
1417
ご宿泊費
12,960
8/30
1417
ご宿泊費
14,400
ご利用金額には、サービス料・消費税が含まれます。
SUS
BALANCE
残高
8%対象合計/Total (8%)
合計金額
68160
0
0
0
68160
6196
0
内消費税/Tax (8%)
内消費税/Tax (10%)
10%対象合計/Tota | (10%)
宿泊税/Accommodation Tax
PAID 登録号/Registration No.T8380001018772
24.8.26
PAID
FRANBELL HOTEL

プロンプトが雑すぎたのか、マークダウン形式にはならず。
jsonも試してみましたが、同様に雑すぎたのか思ったようには出力できず。

コスト

下記の通り、$0.10~0.40/100万トークンと他のLLMと比べてもかなり安く、
1ドルで6000枚ほどのPDFを読み取ることができるようです。

参考:https://ai.google.dev/pricing?hl=ja#2_0flash

まとめ

  • 2025年2月5日(米国時間)に一般公開された
  • $0.10~0.40/100万トークン(1ドルで6000枚ほどのPDFを読み取ることができる)でめちゃくちゃ安い
  • OCRの精度がかなり高い

今後、チャンスがあればDX Suiteなど主要なOCRとどの程度性能の差があるのか比較検証してみたいと思います。

Accenture Japan (有志)

Discussion