Token利用量でドヤるな
NVIDIAのジェンセン・フアンが2026年3月のAll-In Podcastで、こう言った[1][2]。
If that $500,000 engineer did not consume at least $250,000 worth of tokens, I'm going to be deeply alarmed.
訳:年収50万ドルのエンジニアが少なくとも25万ドル分のTokenを消費していなければ、私は深く憂慮する。
GTC 2026でも、Tokenを"the new commodity"と呼び、AI factoryの収益は"tokens-per-watt"だと定義している[3]。Tokenを売る側のNVIDIA CEOが、Tokenをたくさん使うことが生産性だと言っている。

Token消費をKPIに置く会社が増えている
Tokenを売る側がKPIの根拠を提示している
AIブームのGPUと推論基盤を握る最大手はNVIDIAだ。そのCEOが「Tokenを使えば生産性が上がる」と言う発言は、NVIDIAの売上がToken需要に直結している以上、買い手側のKPIの根拠としては利益相反がある。
ShopifyがAI使用度を人事評価に組み込んだ
Shopifyのトビ・リュトケは2025年4月、AI使用度を業績評価とピアレビューの質問項目に追加すると公開メモで宣言した[4][5]。
Reflexive AI usage is now a baseline expectation at Shopify.
訳:反射的なAI利用はいまやShopifyにおけるベースラインの期待値だ。
Microsoftはジュリア・リュウソンが「Using AI is no longer optional」というメールをマネージャー宛に出した、と報じられた[6]。Coinbaseのブライアン・アームストロングはCursor/Copilotを1週間でオンボードしなかったエンジニアに土曜の電話をかけ、一部を解雇したと自ら認めている[7]。
Metaは社内リーダーボードを短期間で停止した
2026年4月、Metaの社内ツール「Claudeonomics」が85,000人のToken消費量をリーダーボード化した。バッジは"Token Legend"と"Cache Wizard"。30日で60兆Token、Anthropic公定価格換算で180M〜9B USD相当という推計もある[8]。マーク・ザッカーバーグもTop 250圏外だった[9][10]。データが外に漏れた直後、短期間で停止された。The Informationはこの現象を"tokenmaxxing"と報じ、Pragmatic Engineerのゲルゲリー・オロスがブログで広めた。
Token量KPIはGoodhartの法則で壊れる
proxyを目標にするとproxyだけ最適化される
「コブラ駆除に懸賞金を出したらコブラを養殖された」というコブラ効果の逸話は一次史料が見当たらない[11]が、同じ構造はGoodhartの法則として経済学で語られている。
When a measure becomes a target, it ceases to be a good measure.
訳:ある指標が目標になった瞬間、その指標は良い指標ではなくなる。
proxyを目標にすると、proxyだけが最適化される。ML/AIではreward hackingという名で繰り返し報告されている[14][15]。
Amazon FlexのドライバーはiPhoneを木に吊るした
2020年、Amazon FlexのドライバーはWhole Foods付近の木にiPhoneを吊るした。Flexアプリは店舗に最も近い端末に配達依頼を流すので、物理的に最寄りを抑えれば本人が遠くにいても依頼を取れる[16]。2026年のAmazon社内では、内製AIツールMeshClawを週1回以上使う開発者の割合80%以上が事実上のKPIとして運用され、社員は不要なタスクをAgentに投げてToken数を水増ししていると報じられている[17]。proxy指標が雑だとハックされる。
METR・DORA・Veracode・GitClearの結果は生産性と一致しない
主要な実証研究はToken量と生産性を結びつけていない
METRは2025年7月、経験豊富なOSS開発者16人 × 246 issueのRCTで、AIを使うと完了時間が19%伸びたと報告した。本人達は「20%速くなった」と感じていた[18]。DORA Report 2024は、AI採用25%増で個人productivityは+2.1%だが、組織のdelivery throughputは-1.5%、stabilityは-7.2%だと報告している[19]。レポートの結論はこれだ。
AI doesn't fix a team; it amplifies what's already there.
訳:AIはチームを治すのではなく、すでにそこにあるものを増幅する。
Veracode 2025は、AI生成コードの45%にセキュリティ欠陥があり、Javaは72%失敗、XSSは86%で脆弱と報告している[20]。GitClear 2025はcode churnが倍増、duplicate codeが8倍に増えたと指摘している[21]。
Anthropic自身がMulti-agentのToken消費に注意喚起している
Anthropicの"How we built our multi-agent research system"によると、単一agentでToken消費は約4倍、Multi-agent構成では約15倍になる。
Multi-agent systems work mainly because they help spend enough tokens to solve the problem.
訳:Multi-agentシステムが機能するのは主に、問題を解くのに十分なTokenを使わせてくれるからだ。
解ける問題があるから増やす、という順序だ。Tokenを売る側のAnthropicが、Token量そのものを目標にすることを推奨していない。
アウトプットではなくアウトカム
開発生産性の枠組みはToken量を含めていない
Token消費量はoutputだ。コード行数、PR数、Story Point、コミット数と同類のoutput指標だ。ジョシュ・サイデンがOutcomes Over Outputでアウトカムをこう定義している。
An outcome is a change in human behavior that drives business results.
訳:アウトカムとは、ビジネス成果を生み出す人間の行動の変化である。
アウトカムは「人間の行動の変化」で、Token数ではない。メリッサ・ペリがEscaping the Build Trapで批判した「生産個数で価値を測る発想」にToken量KPIも当てはまる。開発生産性の枠組みも、DORA 4指標もSPACEもDX Core 4も、Token消費量を含めていない。SPACEは2021年の論文で「Activityだけ見るとミスリードする」と書いている[22]。
Box CEOのアーロン・レヴィは「Tokenは浪費しろ」と言っている
Box CEOのアーロン・レヴィはこの空気の中で、別の立場をとっている[23]。
I look at a Slack channel to see who is using AI the most, not a token leaderboard. Yeah, we should probably waste a lot of tokens because that means that we're trying new things.
訳:誰がAIを一番使っているかはSlackチャンネルを見て確かめている。Tokenのリーダーボードではない。むしろ我々はTokenを大いに浪費すべきだ。新しいことを試している証拠だからだ。
KlarnaとDuolingoはAI強制を撤回した
KPI強制を進めた会社の一部は撤回に入っている。Klarnaのセバスチャン・シェミアトコフスキは「AIが700人分の仕事をしている」と宣言した後、顧客サービス品質低下を理由に人間採用を再開し、"We went too far"と認めた[24]。Duolingoのルイス・フォン・アンはAI-firstメモから1年後、評価からAI使用度を外し"I'm not going to force you"と言った[25]。
コスト指標として測るならDORA・GitClear・DX Core 4・HEART
Token消費量を見るならコスト指標として見る。「Tokenを使えば偉い」ではなく「Tokenを使ってどのくらい価値が出たか」だ。代わりに見るべき指標は業界がすでに名前を付けている。
- DORAの4指標、特にChange Failure RateとMTTR。Elite teamsはChange Failure Rate 5%以下が目安
- GitClearが定義するcode churn。push後2週間以内に書き換え/revertされた行の割合で、AI普及で倍増している
- DX Core 4のImpact。新規ケーパビリティに費やした時間の割合
- ユーザー側のNorth Star MetricとHEART。アクティベーション、リテンション、課題解決率
"The Effects of Generative AI on High Skilled Work"の4,867人のRCTでもAI使用で完了タスクは+26%、経験が浅い開発者ほど効果が大きかった。AIが効くこと自体は実証されている。Token消費量をKPIにするとハックされ、outcomeと切り離される。
-
Tom's Hardware: Jensen Huang says NVIDIA engineers should use AI tokens worth half their annual salary ↩︎
-
TechCrunch: Shopify CEO tells teams to consider using AI before growing headcount ↩︎
-
Fortune: Coinbase CEO Brian Armstrong AI coding assistants mandate ↩︎
-
The Decoder: Meta employees compete for token consumption on internal AI leaderboard ↩︎
-
Strathern 1997: Improving ratings, audit in the British University system ↩︎
-
Anthropic 2025: Natural Emergent Misalignment from Reward Hacking ↩︎
-
Bloomberg: Amazon drivers say smartphones in trees scheme has been thwarted ↩︎
-
The Decoder: Tokenmaxxing spreads at Amazon as employees game internal AI leaderboards ↩︎
-
Entrepreneur: Klarna CEO reverses course by hiring more humans ↩︎
-
Fortune: Duolingo CEO Luis von Ahn on AI usage requirement ↩︎
Discussion