🐈

ロングコンテキストのワンショットタスクで$111吹き飛んだ件

に公開1

alt text

この画像がすべてです。

Sonnetでは解決できなかったタスクを解決するため、Gemini 2.5 Proで、タスクを fire and forget して寝て起きたら、こんな感じになっていました!!!!

  • ロングコンテキストはお金がかかるのでAPI破産しないように注意しましょう(それはそう)
  • Googleさんお願いですからOpenAIと同じ方式の自動プロンプトキャッシュ実装してください!
  • コーディングエージェントには金額ベースの予算上限が実装されるべき!

コストが下がらないと、コーディングエージェントでの1M contextはちょっと非現実的かもしれないですね!Google AI Studioで無料でガンガン投げられていた時期がチートだっただけでした。

解説

Gemini 2.5 Proはとても賢いです。1M contextに対応していてかつ、needle in heystack テストでもめちゃくちゃ成績がいいです。ロングコンテキストにおける性能はClaude Sonnetより圧倒的に良いです。

ところで Gemini 2.5 Proは、値段自体は Claude 3.5/3.7 Sonnetよりも多少安いです。やったね!OpenAI o3はもっと賢そうだけど、Gemini 2.5 Pro以上に高いですね。

VertexAIにはOpenAIのような自動プロンプトキャッシュ機能がありません。

APIのやりとりが増えれば増えるほど、input contextは雪だるま式に肥大します。

もうおわかりですね!!!

補足:別のLLM

  • GPT-4.1も1M contextが実装されています。こっちはprompt cachingがあるので、値段がほんの少しマシです(油断して$38いったけど)
  • Gemini 2.5 Pro よりは圧倒的にやすい Gemini 2.5 Flash も 1M context いけるようです!

Gemini 2.5 Flashは思ったより悪くないけど、多少プロンプトの組み立てかたを、変えないといけない気配があり、要検証です。

まとめ

ロングコンテキストはお金がかかるのでAPI破産しないように注意しましょう。
「それはそう!!!!!!!!!!!!!!!!!!」

油断するとあかん。

Discussion

lfjilfji

全く同量の入力・出力トークンをほかの主要なモデルで処理したらいくらになるのかが気になりますが、キャッシュ?とかいうのが複雑怪奇さを醸し出してますね…