🐍

Token利用量でドヤるな

に公開

NVIDIAのジェンセン・フアンが2026年3月のAll-In Podcastで、こう言った[1][2]

If that $500,000 engineer did not consume at least $250,000 worth of tokens, I'm going to be deeply alarmed.

訳:年収50万ドルのエンジニアが少なくとも25万ドル分のTokenを消費していなければ、私は深く憂慮する。

GTC 2026でも、Tokenを"the new commodity"と呼び、AI factoryの収益は"tokens-per-watt"だと定義している[3]。Tokenを売る側のNVIDIA CEOが、Tokenをたくさん使うことが生産性だと言っている。

Tokenをひたすらくべる炉、生産性の名のもとに燃やされ続けるToken

Token消費をKPIに置く会社が増えている

Tokenを売る側がKPIの根拠を提示している

AIブームのGPUと推論基盤を握る最大手はNVIDIAだ。そのCEOが「Tokenを使えば生産性が上がる」と言う発言は、NVIDIAの売上がToken需要に直結している以上、買い手側のKPIの根拠としては利益相反がある。

ShopifyがAI使用度を人事評価に組み込んだ

Shopifyのトビ・リュトケは2025年4月、AI使用度を業績評価とピアレビューの質問項目に追加すると公開メモで宣言した[4][5]

Reflexive AI usage is now a baseline expectation at Shopify.

訳:反射的なAI利用はいまやShopifyにおけるベースラインの期待値だ。

Microsoftはジュリア・リュウソンが「Using AI is no longer optional」というメールをマネージャー宛に出した、と報じられた[6]。Coinbaseのブライアン・アームストロングはCursor/Copilotを1週間でオンボードしなかったエンジニアに土曜の電話をかけ、一部を解雇したと自ら認めている[7]

Metaは社内リーダーボードを短期間で停止した

2026年4月、Metaの社内ツール「Claudeonomics」が85,000人のToken消費量をリーダーボード化した。バッジは"Token Legend"と"Cache Wizard"。30日で60兆Token、Anthropic公定価格換算で180M〜9B USD相当という推計もある[8]。マーク・ザッカーバーグもTop 250圏外だった[9][10]。データが外に漏れた直後、短期間で停止された。The Informationはこの現象を"tokenmaxxing"と報じ、Pragmatic Engineerのゲルゲリー・オロスがブログで広めた。

Token量KPIはGoodhartの法則で壊れる

proxyを目標にするとproxyだけ最適化される

「コブラ駆除に懸賞金を出したらコブラを養殖された」というコブラ効果の逸話は一次史料が見当たらない[11]が、同じ構造はGoodhartの法則として経済学で語られている。

When a measure becomes a target, it ceases to be a good measure.

訳:ある指標が目標になった瞬間、その指標は良い指標ではなくなる。

Strathern 1997[12], 原典はGoodhart 1975[13]

proxyを目標にすると、proxyだけが最適化される。ML/AIではreward hackingという名で繰り返し報告されている[14][15]

Amazon FlexのドライバーはiPhoneを木に吊るした

2020年、Amazon FlexのドライバーはWhole Foods付近の木にiPhoneを吊るした。Flexアプリは店舗に最も近い端末に配達依頼を流すので、物理的に最寄りを抑えれば本人が遠くにいても依頼を取れる[16]。2026年のAmazon社内では、内製AIツールMeshClawを週1回以上使う開発者の割合80%以上が事実上のKPIとして運用され、社員は不要なタスクをAgentに投げてToken数を水増ししていると報じられている[17]。proxy指標が雑だとハックされる。

METR・DORA・Veracode・GitClearの結果は生産性と一致しない

主要な実証研究はToken量と生産性を結びつけていない

METRは2025年7月、経験豊富なOSS開発者16人 × 246 issueのRCTで、AIを使うと完了時間が19%伸びたと報告した。本人達は「20%速くなった」と感じていた[18]。DORA Report 2024は、AI採用25%増で個人productivityは+2.1%だが、組織のdelivery throughputは-1.5%、stabilityは-7.2%だと報告している[19]。レポートの結論はこれだ。

AI doesn't fix a team; it amplifies what's already there.

訳:AIはチームを治すのではなく、すでにそこにあるものを増幅する。

Veracode 2025は、AI生成コードの45%にセキュリティ欠陥があり、Javaは72%失敗、XSSは86%で脆弱と報告している[20]。GitClear 2025はcode churnが倍増、duplicate codeが8倍に増えたと指摘している[21]

Anthropic自身がMulti-agentのToken消費に注意喚起している

Anthropicの"How we built our multi-agent research system"によると、単一agentでToken消費は約4倍、Multi-agent構成では約15倍になる。

Multi-agent systems work mainly because they help spend enough tokens to solve the problem.

訳:Multi-agentシステムが機能するのは主に、問題を解くのに十分なTokenを使わせてくれるからだ。

解ける問題があるから増やす、という順序だ。Tokenを売る側のAnthropicが、Token量そのものを目標にすることを推奨していない。

アウトプットではなくアウトカム

開発生産性の枠組みはToken量を含めていない

Token消費量はoutputだ。コード行数、PR数、Story Point、コミット数と同類のoutput指標だ。ジョシュ・サイデンがOutcomes Over Outputでアウトカムをこう定義している。

An outcome is a change in human behavior that drives business results.

訳:アウトカムとは、ビジネス成果を生み出す人間の行動の変化である。

アウトカムは「人間の行動の変化」で、Token数ではない。メリッサ・ペリがEscaping the Build Trapで批判した「生産個数で価値を測る発想」にToken量KPIも当てはまる。開発生産性の枠組みも、DORA 4指標もSPACEもDX Core 4も、Token消費量を含めていない。SPACEは2021年の論文で「Activityだけ見るとミスリードする」と書いている[22]

Box CEOのアーロン・レヴィは「Tokenは浪費しろ」と言っている

Box CEOのアーロン・レヴィはこの空気の中で、別の立場をとっている[23]

I look at a Slack channel to see who is using AI the most, not a token leaderboard. Yeah, we should probably waste a lot of tokens because that means that we're trying new things.

訳:誰がAIを一番使っているかはSlackチャンネルを見て確かめている。Tokenのリーダーボードではない。むしろ我々はTokenを大いに浪費すべきだ。新しいことを試している証拠だからだ。

KlarnaとDuolingoはAI強制を撤回した

KPI強制を進めた会社の一部は撤回に入っている。Klarnaのセバスチャン・シェミアトコフスキは「AIが700人分の仕事をしている」と宣言した後、顧客サービス品質低下を理由に人間採用を再開し、"We went too far"と認めた[24]。Duolingoのルイス・フォン・アンはAI-firstメモから1年後、評価からAI使用度を外し"I'm not going to force you"と言った[25]

コスト指標として測るならDORA・GitClear・DX Core 4・HEART

Token消費量を見るならコスト指標として見る。「Tokenを使えば偉い」ではなく「Tokenを使ってどのくらい価値が出たか」だ。代わりに見るべき指標は業界がすでに名前を付けている。

  • DORAの4指標、特にChange Failure RateとMTTR。Elite teamsはChange Failure Rate 5%以下が目安
  • GitClearが定義するcode churn。push後2週間以内に書き換え/revertされた行の割合で、AI普及で倍増している
  • DX Core 4のImpact。新規ケーパビリティに費やした時間の割合
  • ユーザー側のNorth Star MetricとHEART。アクティベーション、リテンション、課題解決率

"The Effects of Generative AI on High Skilled Work"の4,867人のRCTでもAI使用で完了タスクは+26%、経験が浅い開発者ほど効果が大きかった。AIが効くこと自体は実証されている。Token消費量をKPIにするとハックされ、outcomeと切り離される。

脚注
  1. CNBC: Jensen Huang on engineers consuming tokens ↩︎

  2. Tom's Hardware: Jensen Huang says NVIDIA engineers should use AI tokens worth half their annual salary ↩︎

  3. Computerworld: NVIDIA CEO Huang talks up tokenomics ↩︎

  4. Tobi Lütke本人ツイート ↩︎

  5. TechCrunch: Shopify CEO tells teams to consider using AI before growing headcount ↩︎

  6. Windows Central: Using AI is no longer optional ↩︎

  7. Fortune: Coinbase CEO Brian Armstrong AI coding assistants mandate ↩︎

  8. Pragmatic Engineer: Tokenmaxxing as a weird new trend ↩︎

  9. Fortune: Meta killed employee AI token dashboard ↩︎

  10. The Decoder: Meta employees compete for token consumption on internal AI leaderboard ↩︎

  11. Friends of Snakes Society: Cobra effect ↩︎

  12. Strathern 1997: Improving ratings, audit in the British University system ↩︎

  13. Goodhart 1975: Problems of Monetary Management ↩︎

  14. Anthropic 2025: Natural Emergent Misalignment from Reward Hacking ↩︎

  15. DeepMind: Specification gaming examples in AI ↩︎

  16. Bloomberg: Amazon drivers say smartphones in trees scheme has been thwarted ↩︎

  17. The Decoder: Tokenmaxxing spreads at Amazon as employees game internal AI leaderboards ↩︎

  18. METR: Early 2025 AI experienced OS dev study ↩︎

  19. DORA Report 2024 ↩︎

  20. Veracode: 2025 GenAI Code Security Report ↩︎

  21. GitClear: AI Copilot Code Quality 2025 ↩︎

  22. ACM Queue: The SPACE of Developer Productivity ↩︎

  23. Yahoo Finance: Box CEO flags soaring AI ↩︎

  24. Entrepreneur: Klarna CEO reverses course by hiring more humans ↩︎

  25. Fortune: Duolingo CEO Luis von Ahn on AI usage requirement ↩︎

Discussion