🚸

Vibe CodingとPrompt cachingの費用感

に公開1

はじめに

Vibe Coding × 従量課金制APIの肌感覚に誤りがあったので、正しい感覚を共有するために書く。Amazon Bedrock Prompt cachingが高いという話ではないです。

Vibe Coding

Vibe Coding自体がバズワード気味なので、認識が合うか自信がないのだが、”DevinやCline/Claude CodeでAIがサジェストした仕組みを最大限尊重してプロダクト/システムを作成する開発方式”だと私は思ってやっている。

余談だが、これまでは全然Vibe Codingできていなかった(下記資料)

https://speakerdeck.com/watany/cline-without-vibe-coding

Claude CodeでのVibe Coding

公式を参考にInstall。

https://docs.anthropic.com/ja/docs/agents-and-tools/claude-code/overview

npm install -g @anthropic-ai/claude-code

Amazon Bedrock × Prompt cachingで扱う場合、このように環境変数を設定する。

# export AWS_ACCESS_KEY_ID='...'
# export AWS_SECRET_ACCESS_KEY='...'
export AWS_PROFILE=default
export AWS_REGION=us-east-1

export CLAUDE_CODE_USE_BEDROCK=1
export ANTHROPIC_MODEL='us.anthropic.claude-3-7-sonnet-20250219-v1:0'
export ANTHROPIC_SMALL_FAST_MODEL='us.anthropic.claude-3-5-haiku-20241022-v1:0'

Claudeコマンドで起動し、/initでCLAUDE.mdを作る。

claude

Claude Codeは引数に--dangerously-skip-permissionsを渡すと、許可プロンプトをスキップモードで動く。基本的にはこれだけで実施していた。

claude --dangerously-skip-permissions

ちなみに変な方向にコーディングが進むのが気になるので、20%~25%くらいは介入してしまっている。修行が足りない。

費用感と実際の請求

Prompt cachingの費用感はこのようなものだ。

https://aws.amazon.com/jp/bedrock/pricing/

実際使ってみるとこうなる。直観的に「Cacheを使っても意外とWriteが高いな」と思わないだろうか?

値札の確認

Claude 3.7 Sonnetのキャッシュの有無による費用感は、確かにこんなものである。

利用形態 入力単価 (USD) 出力単価 (USD)
キャッシュなし 0.003 0.015
キャッシュあり 0.0003 0.00375
割引率 90% 75%

この表の問題として、小数点以下の0が多くて直観的にわかりずらい点がある。”キャッシュなし”・”入力”を1として比率を書き直した表はこれだ。

利用形態 入力単価 (USD) 出力単価 (USD)
キャッシュなし 1 5
キャッシュあり 0.1 1.25

つまり「Bedrock Cachingを使えば、コストが最大90%オフ」という売り文句自体は本当なのだが、他の数字感覚も養った方が良い。具体的には

  • キャッシュ無のIn/Out比は1:5
  • キャッシュ有のIn/Out比は1:12.5
  • キャッシュ無しのInとキャッシュ有のOutのコスト比は4:5

となる。

読み込みと書き込みのコストに12倍の差があるということは、”書きながら考えさせるのはコスト効率が悪い”というのと同義だ。だから極端な話、書き込む前に3倍くらい考えさせたり壁打ちした方がLLM APIへのトークン代は安くなるだろう。

財布の大きさが AIコーディングの戦略を決める

難しい点としてLLMのトークンの安い・高いは文脈によって変わってくる。

今回3日で$124、だいたい2万円弱が飛んでるので個人のお小遣いとしては明らかに痛い。一方で開発に使う原価として扱う場合、22営業日だと15万円なので安い・高いが文脈によって変わってくる。(もっとも私の例では、毎日8時間も動かしていないが)

極端な話、外注費をそのまま置き換える計算だとDevinやClaude Codeをぶん回しても許容されることもあるのかもしれない。月に10万と決まっている場合は今回のペースで15日?人月?くらいは動かせる。

つまりAIとペアプロスタイルを取ったり、ドライバー席を譲ったり、Vibe Codingに任せたりする方式は厳密にはグラデーションがあって、それぞれ予算感が異なるのだが、相棒であるチーム内のエンジニア・マネージャのスキルに依存することに難しさがある。
相場観を養うには触るのが一番なので、”シンギュラリティが来たら今の過程は意味がない”と眺めていてはいけない。

Appendix.

作ったもの自体はかなり満足できているので、そのうちまた紹介します。

https://github.com/watany-dev/hawkling

Discussion