【Gemini 3】API単価だけ見てると損する。動画理解コストが1/2になる話
【Gemini 3】API単価だけ見てると損する。動画理解コストが1/2になる話
― Flash / Pro 両モデルで起きている“トークン革命”
はじめに
先日発表された Gemini 3 モデル。
性能向上はもちろんですが、API を使う開発者として真っ先に気になるのは 「価格」 ではないでしょうか。
公式の料金表を見ると、Gemini 3(Flash / Pro)は
従来の Gemini 2.5 モデル群と比べて 入力トークン単価が明確に上がっています。
そのため、
「Gemini 3 は高い」
「とりあえず 2.5 のままで良さそう」
と感じて移行をためらうのは自然です。
しかし、これは 動画理解(Video Understanding) の文脈では誤解です。
実は Gemini 3 では、動画入力において 実行コストが半額以下になる という逆転現象が起きています。
本記事では、公式ドキュメントを根拠に、
- なぜ単価が上がっても総コストが下がるのか
- Flash / Pro の両方で同じ構造が成り立つ理由
- 実務でどう判断すべきか
を、具体的な数値と試算を交えて解説します。
TL;DR

1. 表面的な単価比較:確かに Gemini 3 は高い
まずは Flash / Pro の 入力単価(100万トークンあたり) を見比べます。
Flash モデル
| モデル | 入力単価 |
|---|---|
| Gemini 2.5 Flash | $0.30 |
| Gemini 3 Flash | $0.50 |
→ 約1.67倍の値上げ
Pro モデル(200k 以下プロンプト想定)
| モデル | 入力単価 |
|---|---|
| Gemini 2.5 Pro | $1.25 |
| Gemini 3 Pro | $2.00 |
→ 約1.6倍の値上げ
それにもかかわらず、なぜ実コストは下がるのでしょうか。
鍵は 動画トークン化の効率 にあります。
2. 動画トークン化の世代交代:258 → 70

従来モデル(Gemini 2.5 / 2.0)
Gemini 3 以前のモデルでは、動画は主に Pan and Scan などの方式で処理され、
標準的な設定では 1フレームあたり約258トークン を消費していました。
フレーム数が増えるほど、消費トークンもほぼ線形に増えます。
Gemini 3(Flash / Pro 共通)
Gemini 3(Flash / Pro)では、動画トークン化の方式が刷新され、
可変シーケンス長(variable sequence length) が導入されました。
- フレームや領域ごとの情報量に応じてトークン数を変える
- 動きが少ない・情報量が低い部分は強く圧縮する
- すべてのフレームを同じ密度で表現しない
その結果、デフォルト(および medium / low 解像度)では
1フレームあたり 70 トークン にまで削減されています。
3. 実質コスト比較(Flash)
ここからは「単価 × 消費トークン量」で、実際のコストを見ていきます。
前提
Gemini の Video Understanding では、
意味理解に十分な頻度でフレームをサンプリングする前提が置かれています。
ここでは一例として、
- 約1,000フレーム(≒ 数十分規模の動画)
を解析するケースを考えます。
Gemini 2.5 Flash の場合
258 tokens/frame × 1,000 frames = 258,000 tokens
0.258M tokens × $0.30 = $0.0774
Gemini 3 Flash の場合
70 tokens/frame × 1,000 frames = 70,000 tokens
0.07M tokens × $0.50 = $0.035
結果(Flash)
| モデル | 1000フレームあたりのコスト |
|---|---|
| Gemini 2.5 Flash | $0.0774 |
| Gemini 3 Flash | $0.035 |
4. Pro モデルでも同じ逆転が起きる
重要なのは、動画トークン化の仕組みが
Flash / Pro で共通 だという点です。
フレームあたりのトークン消費量
| モデル世代 | tokens / frame |
|---|---|
| Gemini 2.5(Flash / Pro) | 約258 |
| Gemini 3(Flash / Pro) | 70 |
Gemini 2.5 Pro の場合
258 tokens/frame × 1,000 frames = 258,000 tokens
0.258M tokens × $1.25 = $0.3225
Gemini 3 Pro の場合
70 tokens/frame × 1,000 frames = 70,000 tokens
0.07M tokens × $2.00 = $0.14
結果(Pro)
| モデル | 1000フレームあたりのコスト |
|---|---|
| Gemini 2.5 Pro | $0.3225 |
| Gemini 3 Pro | $0.14 |
5. media_resolution の使い分け(実務視点)
Gemini 3 では media_resolution を指定することで、
1フレームあたりのトークン量を変え、精度とレイテンシのバランスを制御できます。
重要なのは、高解像度(high)にしなくても Gemini 3 の価値は十分に発揮される
という点です。
| モデル / 設定 | tokens / frame | コスト感 | 性能の期待値 | 実務での位置づけ |
|---|---|---|---|---|
| Gemini 2.5(既定) | 約258 | 中 | ベースライン | 従来世代 |
| Gemini 3 low / medium | 70 | 最安 | 2.5 を超える | デフォルト |
| Gemini 3 high | 280 | 中 | さらに高精度 | 例外的に使用 |
実務メモ
- Gemini 3 の強みは、low / medium(70 tokens / frame)のままでも
従来の Gemini 2.5 を超える性能を、低コストで発揮できる点にある - 行動理解・要約・シーン分割など、多くの動画理解タスクは low / medium で十分
-
highは、フレーム内の細かい文字(OCR)や小さな物体など、
1フレーム内の空間的な精度 が必要な場合に限定して使うのが効果的
まとめ:動画理解では単価より「tokens / frame」
Gemini 3 は単なる「高性能・高価格モデル」ではありません。
- API単価は確かに上がった
- しかし動画トークン化が刷新され、1フレームあたりのトークンが激減
- 結果、動画理解の実行コストは Flash / Pro ともに半額以下
長時間動画・バッチ解析・構造化処理を行うアプリケーションでは、
Gemini 3 への移行は コスト削減と品質向上を同時に狙える選択 になります。
こんな人におすすめ
- 動画解析・要約・行動認識アプリを開発している
- Gemini 2.5 → 3 への移行を検討している
- マルチモーダル API のコスト設計に悩んでいる
Discussion