📝

Claude 4.1を早速試してみました

に公開

はじめに

2025年8月5日、AnthropicがClaude Opus 4.1をリリースしました。SWE-bench Verifiedで74.5% というスコアを記録し、前バージョンの72.5%から2ポイントの向上を達成したとのことです。

Claude Maxユーザーは、Claude Codeでも新モデルを選択できるようになりました:

早速試してみましたので、公式情報と実際の使用感をまとめてお届けします。

主要スペックと改善点

公式発表

まず、Anthropicが発表した主要な改善点を整理してみましょう。

パフォーマンス指標

  • SWE-bench Verified: 72.5% → 74.5%(業界トップスコア)
  • セキュリティ強化: ポリシー違反リクエストの拒否率が97.27%から98.76%へ向上
  • コンテキストウィンドウ: 200Kトークンを維持
  • 最大出力: 32,000トークン

技術的な改善点

Anthropicによれば、今回のアップデートは主に以下の領域に焦点を当てているとのことです:

  • 複数ファイルのコードリファクタリングの精度向上
  • デバッグ時の問題特定能力の改善
  • エージェントタスクでのパフォーマンス向上
  • 詳細追跡とデータ分析スキルの強化

実際に触れてみた所感

正直なところ、ベンチマークスコアの改善は控えめに見えますが、実際の使用感では重要な改善を実感しました。

大型コードベースでの精度向上が顕著

Claude Codeを日常的に使っている方なら共感いただけると思いますが、従来のモデルでは大規模なコード修正や置換時に、修正位置特定エラーが頻発していました。特に複数ファイルや大規模にまたがる修正では、「該当箇所が特定できません」といったエラーに悩まされることが多かったはずです。

今朝から数時間使ってみた限りでは、この問題が大幅に改善されています。大型コードベースでの正確な位置特定と修正能力が明らかに向上しており、エラー率が体感でほとんど無いになった印象です。これは日々のコーディング作業において、ストレスを大きく軽減してくれる改善点と思います。

その他の改善点

マルチファイルリファクタリングの処理も以前よりスムーズになり、特に依存関係の把握が正確になったように感じます。ただし、これらは数値化しにくい改善のため、使い込んでいくうちに実感が深まるタイプの進化かもしれません。

個人的には、近々リリースされると噂されているGPT-5への対抗策の一環として投入された面もあるのではと推測しています。Anthropicは「数週間以内により大幅な改善を予定」と予告していることからも、今回はあくまで第一弾という位置づけなのかと思います。

利用方法と料金体系

アクセス方法

Claude Opus 4.1は以下のプラットフォームで利用可能です:

  • Claude Pro/Max/Team/Enterprise: Webインターフェースから直接利用可能
  • Anthropic API: モデルID claude-opus-4-1-20250805 を指定
  • Amazon Bedrock: AWSユーザー向けの統合サービス
  • Google Cloud Vertex AI: GCP環境での利用に最適
  • GitHub Copilot: Pro+およびEnterpriseプランで利用可能

API料金

料金体系はOpus 4と同額に設定されています:

項目 料金
入力トークン $15 / 100万トークン
出力トークン $75 / 100万トークン
プロンプトキャッシング(書き込み) $18.75 / 100万トークン
プロンプトキャッシング(読み込み) $1.50 / 100万トークン
バッチ処理 50% OFF

プロンプトキャッシングを活用すれば最大90%のコスト削減が可能です。

まとめ

Claude Opus 4.1の最大の改善点は、大規模コードベースでの位置特定精度の向上です。Claude Codeユーザーにとって、これは作業効率を大きく改善する実用的なアップデートといえるでしょう。

特に大規模な修正作業では、エラーによる再試行が減ることで時間とトークンの大幅な節約が期待できます。体感でエラー率が半減したことを考えると、長時間の開発作業では相当なコスト削減につながるはずです。

「数週間以内により大きな改善」という予告も楽しみですが、現時点でも十分に実用的な進化を遂げています。

Accenture Japan (有志)

Discussion