📉

【Gemini 3】API単価だけ見てると損する。動画理解コストが1/2になる話

に公開

【Gemini 3】API単価だけ見てると損する。動画理解コストが1/2になる話

― Flash / Pro 両モデルで起きている“トークン革命”


はじめに

先日発表された Gemini 3 モデル。
性能向上はもちろんですが、API を使う開発者として真っ先に気になるのは 「価格」 ではないでしょうか。

公式の料金表を見ると、Gemini 3(Flash / Pro)は
従来の Gemini 2.5 モデル群と比べて 入力トークン単価が明確に上がっています

そのため、

「Gemini 3 は高い」
「とりあえず 2.5 のままで良さそう」

と感じて移行をためらうのは自然です。

しかし、これは 動画理解(Video Understanding) の文脈では誤解です。
実は Gemini 3 では、動画入力において 実行コストが半額以下になる という逆転現象が起きています。

本記事では、公式ドキュメントを根拠に、

  • なぜ単価が上がっても総コストが下がるのか
  • Flash / Pro の両方で同じ構造が成り立つ理由
  • 実務でどう判断すべきか

を、具体的な数値と試算を交えて解説します。


TL;DR


1. 表面的な単価比較:確かに Gemini 3 は高い

まずは Flash / Pro の 入力単価(100万トークンあたり) を見比べます。

Flash モデル

モデル 入力単価
Gemini 2.5 Flash $0.30
Gemini 3 Flash $0.50

約1.67倍の値上げ

Pro モデル(200k 以下プロンプト想定)

モデル 入力単価
Gemini 2.5 Pro $1.25
Gemini 3 Pro $2.00

約1.6倍の値上げ

それにもかかわらず、なぜ実コストは下がるのでしょうか。
鍵は 動画トークン化の効率 にあります。


2. 動画トークン化の世代交代:258 → 70

従来モデル(Gemini 2.5 / 2.0)

Gemini 3 以前のモデルでは、動画は主に Pan and Scan などの方式で処理され、
標準的な設定では 1フレームあたり約258トークン を消費していました。

フレーム数が増えるほど、消費トークンもほぼ線形に増えます。

Gemini 3(Flash / Pro 共通)

Gemini 3(Flash / Pro)では、動画トークン化の方式が刷新され、
可変シーケンス長(variable sequence length) が導入されました。

  • フレームや領域ごとの情報量に応じてトークン数を変える
  • 動きが少ない・情報量が低い部分は強く圧縮する
  • すべてのフレームを同じ密度で表現しない

その結果、デフォルト(および medium / low 解像度)では
1フレームあたり 70 トークン にまで削減されています。


3. 実質コスト比較(Flash)

ここからは「単価 × 消費トークン量」で、実際のコストを見ていきます。

前提

Gemini の Video Understanding では、
意味理解に十分な頻度でフレームをサンプリングする前提が置かれています。

ここでは一例として、

  • 約1,000フレーム(≒ 数十分規模の動画)

を解析するケースを考えます。


Gemini 2.5 Flash の場合

258 tokens/frame × 1,000 frames = 258,000 tokens
0.258M tokens × $0.30 = $0.0774

Gemini 3 Flash の場合

70 tokens/frame × 1,000 frames = 70,000 tokens
0.07M tokens × $0.50 = $0.035

結果(Flash)

モデル 1000フレームあたりのコスト
Gemini 2.5 Flash $0.0774
Gemini 3 Flash $0.035

4. Pro モデルでも同じ逆転が起きる

重要なのは、動画トークン化の仕組みが
Flash / Pro で共通 だという点です。

フレームあたりのトークン消費量

モデル世代 tokens / frame
Gemini 2.5(Flash / Pro) 約258
Gemini 3(Flash / Pro) 70

Gemini 2.5 Pro の場合

258 tokens/frame × 1,000 frames = 258,000 tokens
0.258M tokens × $1.25 = $0.3225

Gemini 3 Pro の場合

70 tokens/frame × 1,000 frames = 70,000 tokens
0.07M tokens × $2.00 = $0.14

結果(Pro)

モデル 1000フレームあたりのコスト
Gemini 2.5 Pro $0.3225
Gemini 3 Pro $0.14

5. media_resolution の使い分け(実務視点)

Gemini 3 では media_resolution を指定することで、
1フレームあたりのトークン量を変え、精度とレイテンシのバランスを制御できます。

重要なのは、高解像度(high)にしなくても Gemini 3 の価値は十分に発揮される
という点です。

モデル / 設定 tokens / frame コスト感 性能の期待値 実務での位置づけ
Gemini 2.5(既定) 約258 ベースライン 従来世代
Gemini 3 low / medium 70 最安 2.5 を超える デフォルト
Gemini 3 high 280 さらに高精度 例外的に使用
実務メモ
  • Gemini 3 の強みは、low / medium(70 tokens / frame)のままでも
    従来の Gemini 2.5 を超える性能を、低コストで発揮できる点にある
  • 行動理解・要約・シーン分割など、多くの動画理解タスクは low / medium で十分
  • high は、フレーム内の細かい文字(OCR)や小さな物体など、
    1フレーム内の空間的な精度 が必要な場合に限定して使うのが効果的

まとめ:動画理解では単価より「tokens / frame」

Gemini 3 は単なる「高性能・高価格モデル」ではありません。

  • API単価は確かに上がった
  • しかし動画トークン化が刷新され、1フレームあたりのトークンが激減
  • 結果、動画理解の実行コストは Flash / Pro ともに半額以下

長時間動画・バッチ解析・構造化処理を行うアプリケーションでは、
Gemini 3 への移行は コスト削減と品質向上を同時に狙える選択 になります。


こんな人におすすめ

  • 動画解析・要約・行動認識アプリを開発している
  • Gemini 2.5 → 3 への移行を検討している
  • マルチモーダル API のコスト設計に悩んでいる

Reference

Discussion