🔍
Gemini-2.5-flash-lite-preview-06-17 APIで栄養成分表をOCRしてみた

2025/06/21に公開
 結論を3行でSNSで「早い！」と話題の「gemini-2.5-flash-lite-preview-06-17」で、「OCR→得られたテキストの擬人化」を試してみた
OCRの精度は良好。OCRと擬人化テキストの生成で4秒ほど
「gpt-4.1-nano」「gemini-2.5-flash」と比較した。OCRに絞って複数回実行したところ、gpt-4.1-nano：約2.3秒、gemini-2.5-flash：約11秒。gemini-2.5-flash-lite-preview-06-17は約1.8秒で早さが際立つ
gemini-2.5-flash-lite-preview-06-17のモデル詳細はここでは省きますので、詳しくは以下をご覧ください。
https://ai.google.dev/gemini-api/docs/models?hl=ja#gemini-2.5-flash-lite

 事の経緯
 OCR + 擬人化してみたGeminiから新しいモデルとして、「gemini-2.5-flash-lite-preview-06-17」が登場しました。SNSで評判を見ると、処理がすごい早いらしい・・・！
ってわけで、「なんか試しに作れないかなー」と周囲を見渡した時、お菓子替わりに食べてるミックスナッツの袋がふと目に。そこで「画像を入力してOCRでもやらせてみようか」と試してみました。
ただのOCRだとつまらないため、「栄養成分表に自己紹介させる」という意味のない擬人化も一緒に紹介しますね。

 実際に使った写真はこちらちなみに実際に使った写真はこちら。

 ソースコード「動けばいいや」のスタイルです。すみません汗
なお、使った環境はGoogle Colabです。
ソースコード例
import os
from google import genai
from google.genai import types
from google.colab import userdata

os.environ['GEMINI_API_KEY'] = userdata.get("GEMINI_API_KEY")
client = genai.Client(http_options= {'api_version': 'v1beta'})

GEMINI_LIGHT_MODEL = 'gemini-2.5-flash-lite-preview-06-17'

with open('sample.jpg', 'rb') as f:
    image_bytes = f.read()

# OCR
image_response = client.models.generate_content(
  model=GEMINI_LIGHT_MODEL,
  contents=[
    types.Part.from_bytes(
      data=image_bytes,
      mime_type='image/jpeg',
    ),
    '入力された画像を説明して'
  ]
)

imageinfo = image_response.text

# 得られたテキストを元に自己紹介させる
response = client.models.generate_content(
  model=GEMINI_LIGHT_MODEL,
    contents=f"ちょっとおしゃべりな自己紹介して！\n【あなたの正体は・・・】→{imageinfo}"
)

print(response.text)


 実際に試してみた
 まずOCRの結果まず純粋に読み取った文字はこんな感じ。もともとの画像をOCR前提でできるだけ意識して写真を撮ったというのもあると思いますが、誤植もなく、素晴らしい精度です。
!この画像は、食品の栄養成分表示と原材料情報の一部を示しています。
栄養成分表示:

熱量: 660 kcal (100gあたり)

たんぱく質: 18.1 g

脂質: 59.0 g

炭水化物: 17.6 g
うち糖質: 10.8 g
うち食物繊維: 6.8 g


食塩相当量: 0.0 g

鉄: 3.68 mg

ビタミンE: 11.5 mg

不飽和脂肪酸: 50.0 g
原材料情報:

名称: ミックスナッツ

原材料名: アーモンド、クルミ、カシューナッツ、マカデミアナッツ
これらの情報は、食品のパッケージに記載されている標準的な表示です。

 せっかくなので擬人化無駄機能ですが、擬人化も。単純に先ほどの栄養成分表のテキストを「おしゃべりに自己紹介して」というプロンプトとともに渡しただけです。
!やっほー！おしゃべり担当のわたし、自己紹介させてね！
【私の正体は…】ズバリ！ 「栄養満点、元気の源、おいしいミックスナッツ！」 だよ！
ご覧の通り、私はアーモンド、クルミ、カシューナッツ、マカデミアナッツの仲良し4人組でできてるんだ。みんなそれぞれ個性豊かで、一緒にいるとパワーアップしちゃうんだよね！
私の自慢は何と言っても、この豊富な栄養！

熱量はガツンと660kcal！ ちょっとパワーチャージしたい時にもってこいだよ。

たんぱく質は18.1g！ 体を作るのにとっても大切なんだ。

脂質はたっぷり59.0g！ でも、そのほとんどはヘルシーな「不飽和脂肪酸」だから安心してね。体に嬉しい脂肪酸なんだ。

炭水化物は17.6gで、そのうち糖質は10.8g。それに、食物繊維も6.8gも含まれてるんだ！お腹も喜んでくれるはずだよ。

食塩相当量はまさかの0.0g！ 塩分ゼロなので、健康を気遣う人にもピッタリ！
さらに、鉄分が3.68mgも含まれていて、女性にも嬉しいポイントかな？
そして、美容の味方とも言われるビタミンEが11.5mg！アンチエイジング効果も期待できちゃうかも？
私の魅力は、ただ美味しいだけじゃなくて、このバランスの取れた栄養価なんだ。ポリポリ食べるだけで、元気もキレイもサポートできるなんて、最高じゃない？
私は、そのままスナックとして楽しむのはもちろん、サラダのトッピングにしたり、お菓子作りの材料にしたりと、色んなシーンで大活躍できるんだ。私のサクサク、カリカリとした食感は、どんな料理もワンランクアップさせてくれる魔法を持っているんだよ！
さあ、私のこの豊かな栄養と美味しい味わいを、ぜひあなたの毎日にも取り入れてみてくださいね！おしゃべりな私だけど、皆さんの健康と笑顔のために、これからも精一杯頑張りますっ！よろしくお願いしまーす！
おしゃべりなだけあってよくしゃべりますｗ

 処理時間と、こんな感じで2回処理したわけですが、OCR→擬人化テキスト生成のこの一連の動作時間はだいたい4秒前後。めっちゃ早いです。
同じことを「gemini-2.5-flash」にやらせたところ、約20秒超もかかりました。さすがに20秒もかかると「長いな」と感じますよね。
参考までに、OCR部分だけに絞って、「gpt-4.1-nano」と「gemini-2.5-flash」比較してみました。
gemini-2.5-flash-lite-preview-06-17：約1.8秒
gpt-4.1-nano：約2.3秒
（参考）gemini-2.5-flash：約11秒
複数回繰り返したところでは、gemini-2.5-flash-lite-preview-06-17がほんのり早そうに思います。
ソースコード例（比較に使ったgpt-4.1-nano用のコード）
import os
import base64
from openai import OpenAI
from google.colab import userdata

os.environ['OPENAI_API_KEY'] = userdata.get("OPENAI_API_KEY")

client = OpenAI()

# Function to encode the image
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")


# Path to your image
image_path = "sample.jpg"

# Getting the Base64 string
base64_image = encode_image(image_path)


response = client.responses.create(
    model="gpt-4.1-nano",
    input=[
        {
            "role": "user",
            "content": [
                { "type": "input_text", "text": "入力された画像を説明して" },
                {
                    "type": "input_image",
                    "image_url": f"data:image/jpeg;base64,{base64_image}",
                },
            ],
        }
    ],
)

print(response.output_text)


 実際使ってみて今までOCRはTesseractを使っていたのですが、画質の悪い画像などでうまく読み込めないケースが多々ありました。
コストも安いですし、「gemini-2.5-flash-lite-preview-06-17」に置き換えようかな、とは思ったところです。

 Gemini関連の記事Gemini APIを使った話題はこちらでも紹介しています。
https://zenn.dev/mirai_asset/articles/95e12acdc41030
https://zenn.dev/mirai_asset/articles/2d813cec0e63fa

 また見てね！また、記事を書くのでフォローしてね！
Xはお金の話中心です

https://x.com/instockexnet
結論を3行で

事の経緯

OCR + 擬人化してみた

実際に使った写真はこちら

ソースコード

実際に試してみた

まずOCRの結果

せっかくなので擬人化

処理時間

実際使ってみて

Gemini関連の記事

また見てね！

Discussion