Claude Opus 4.5がコーディング最強の座を奪還 - 「人間の仕事がなくなる」論に惑わされないために
参照元
Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult - Simon Willison
11月24日の週、「最先端」は3回入れ替わった
Hacker Newsで1200ポイント。Claude Opus 4.5のリリースが話題です。
SWE-bench Verifiedで80.9%。史上初の80%超え。GPT-5.1-Codex-Max(77.9%)、Gemini 3 Pro(76.2%)を抑えて首位奪還。
| モデル | スコア |
|---|---|
| Claude Opus 4.5 | 80.9% |
| GPT-5.1-Codex-Max | 77.9% |
| Gemini 3 Pro | 76.2% |
Anthropicの社内採用試験でも、過去の人間受験者全員を上回ったと。ただし、これは「並列推論」という手法を使った場合。この条件なしだと「最も優秀な人間と同等」程度です。
ベンチマーク差3%の意味がわからなくなってきた
Simon Willisonが鋭い指摘をしています。
11月18日の週、「最先端」の定義は3回も入れ替わった。18日にGemini 3 Pro、翌日にGPT-5.1、そして24日にOpus 4.5。
彼はこうも言っています。
ベンチマークで数%の差がついたところで、実際の問題を解くときにどれだけ違いが出るのか。正直よくわからなくなってきた。
確かにそうです。各社が1〜2週間おきに「最強」を発表してくる状況、追いかけるだけで疲れます。そしてその「最強」の差は、年々わかりにくくなっている。
Willisonはさらに、新モデルのリリース時には「前世代では不可能だったタスクの具体例」を示すべきだと提言しています。「Sonnet 4.5で失敗したプロンプトがOpus 4.5で成功する」といった実例が、ベンチマーク数値よりも価値があると。
開発者の本音はどうなのか
The Pragmatic Engineerが3,000人の開発者に調査しました。
経営層は「AIがコードの30%を書いている」「1年以内に全コードがAI生成になる」と言います。でも現場の声は違う。
- 開発者の半数がAIツールを週に1度も使っていない
- AIツールへの信頼度は2024年の69%から2025年は54%に低下
- 「AIのコードを信用していない」と答えた人は31%→46%に増加
さらに衝撃的な研究結果があります。METRという研究機関が、経験豊富なオープンソース開発者を対象に実験したところ、AIを使った方が19%遅くなったそうです。開発者自身は「24%速くなった」と感じていたにもかかわらず。
正直、前にコンテキスト詰め込みすぎてレイテンシが3倍になった経験があるから、こういう数字には納得感があります。AIが生成したコードのレビューと修正に時間を取られる。
本当に起きていること:二極化
スタンフォード・デジタルエコノミーラボの研究によると、AIの影響を受けやすい職種で:
- 22〜25歳の若手:雇用が13〜20%減少
- 35〜49歳のシニア:雇用が9%以上増加
つまり、若手の定型タスクはAIに置き換わりつつある。でもシニアの「暗黙知」は依然として自動化が難しい。
これ、ちょっと怖い話でもあります。若手が経験を積む「最初の一段目」がなくなると、将来シニアになる人材が育たない。業界全体の問題として、2030年頃に深刻化するかもしれないと指摘されています。
エンジニアはどう考えているのか
日本のエンジニア調査(CloudInt, 2025年11月)によると:
- 66%がAIに仕事を奪われる不安を感じている
- でも53%が「創造的な業務や上流工程の重要性が増す」と予測
- 70%以上が「それでもエンジニアとして働き続けたい」と回答
僕なりに思うことを書きます。
焦って「AI時代のスキル」を身につけようとしなくていい。そもそも「タイピング速度がボトルネックだったことは一度もない」(DX社CTOの言葉)。AIでコード生成が速くなっても、レビューする時間は変わらない。そしてエンジニアの仕事のうち、コーディングに費やす時間は平均25%程度という調査もあります。
ベンチマークの数字に一喜一憂しない。80.9%が77.9%になったところで、あなたの明日の仕事が突然なくなるわけじゃない。
「AIに仕事を奪われる」より「AIを使う側になる」。クリシェに聞こえるかもしれませんが、実際にそうなりつつあります。Gartnerは2027年までにAIが奪う以上の雇用を生み出すと予測しています。
価格が3分の1になった話
技術的な話に戻ると、Opus 4.5の価格は前世代から66%下がりました。
| 前世代 | Opus 4.5 | |
|---|---|---|
| 入力 | $15/M | $5/M |
| 出力 | $75/M | $25/M |
GPT-5.1($1.25/$10)やGemini 3 Pro($2/$12)と比べるとまだ高いですが、「個人で試せる」レベルにはなりました。
セキュリティ面ではプロンプトインジェクション耐性が業界トップ(攻撃成功率63%、GPT-5.1は88%、Gemini 3 Proは92%)。企業利用を考えるなら、ここは見逃せないポイントです。
ただしWillisonは警告しています。「モデルのトレーニングだけでは根本的な解決にならない。アプリケーション設計時に、攻撃者が常にモデルを騙す可能性を想定すべき」と。
実装コストの方が気になる
便利そうだけど、既存パイプラインへの組み込みコストが気になります。
200,000トークンのコンテキストは魅力的ですが、前に似たアプローチでトークン消費が予想外に増えた経験があるから、実際の運用コストはどうなるのか。
新しい「effort parameter」は面白い試みですが、実装時のエラーハンドリングをどう設計するか。理屈は分かるけど、スケールした時のパフォーマンスが心配です。
結局のところ
「人間を超えた」という見出しは、半分本当で半分誇張です。特定の条件下、特定のベンチマークでは確かに超えた。でもそれが「エンジニア不要」を意味するわけじゃない。
むしろ今起きているのは、「何にAIを使い、何に人間を使うか」の切り分けが進んでいるということ。その境界線は日々動いているし、正解は誰にもわからない。
不安になるのは自然なことです。僕だってこの記事を書きながら、何度か「このくらいの文章、AIに書かせればいいのでは」と思いました。でも、その不安を煽る記事に踊らされるより、冷静に事実を見て、自分なりの判断をした方がいい。
GPT-5.1、Gemini 3 Pro、Opus 4.5。どれが「最強」かは来週また変わるかもしれません。でも、あなたのキャリアは来週の発表で決まるものじゃない。
プロンプトインジェクションの現実
Anthropicは「業界トップの耐性」を謳っていますが、Willisonの指摘通り、これは解決済みの問題ではありません。
攻撃成功率63%は、裏を返せば「10回中6回は騙せる」ということ。本番環境でユーザー入力を扱う場合、この数字では安心できない。
アプリケーション設計時に、攻撃者が常にモデルを騙す可能性を前提にしないといけない。これはモデルの性能改善だけでは解決しない問題です。
Discussion