Claude Opus 4.1のリリースまとめ

に公開

はじめに

Anthropic社は、Claude Opus 4の改良版であるClaude Opus 4.1をリリースしました。このアップグレードでは、エージェントタスク、実世界でのコーディング、推論能力において顕著な改善が見られます。同社は今後数週間以内に、さらに大幅な改善を加えたモデルのリリースも予定しています。

https://www.anthropic.com/news/claude-opus-4-1

利用可能なプラットフォーム

Opus 4.1は以下のプラットフォームで利用可能です:

  • Claudeの有料ユーザー向け:Webインターフェースで利用可能
  • Claude Code:コーディング特化ツール
  • APIclaude-opus-4-1-20250805として提供
  • Amazon Bedrock:AWSのAIサービス
  • Google Cloud Vertex AI:Google Cloudのプラットフォーム

価格設定はOpus 4と同じとなっています。

主要な性能向上

1. コーディング性能の飛躍的向上

Claude Opus 4.1は、SWE-bench Verifiedにおいて**74.5%**という最先端のコーディング性能を達成しました。SWE-bench Verifiedは、実世界のソフトウェアエンジニアリングタスクを評価する業界標準のベンチマークです。

2. 研究とデータ分析能力の強化

以下の分野で特に改善が見られます:

  • 詳細追跡能力:複雑な情報の管理と追跡
  • エージェント検索:自律的な情報検索と処理

ベンチマーク結果

Opus 4.1は複数のベンチマークで優れた結果を示しています:

主要ベンチマーク

  • SWE-bench Verified: 74.5%(拡張思考なし)
  • Terminal-Bench: 高性能を達成(拡張思考なし)
  • TAU-bench: エージェントポリシータスクで優秀な結果
  • GPQA Diamond、MMMLU、MMMU、AIME: 拡張思考(最大64Kトークン)を使用して高スコアを達成

技術的な特徴

ハイブリッド推論モデル

Claude Opus 4.1はハイブリッド推論モデルとして設計されています。これにより、タスクに応じて以下の2つのモードを使い分けることができます:

  1. 通常モード:迅速な応答が必要な場合
  2. 拡張思考モード:複雑な問題解決に最大64Kトークンまで使用

SWE-benchでの実装アプローチ

Claude 4ファミリーのモデルでは、シンプルなスキャフォールドを使用しています:

  • Bashツール:コマンドライン操作
  • ファイル編集ツール:文字列置換による編集
  • Claude 3.7 Sonnetで使用されていた「計画ツール」は削除

開発者向けの移行ガイド

アップグレードの推奨

Anthropicは、すべての用途でOpus 4からOpus 4.1へのアップグレードを推奨しています。

API利用方法

開発者は以下のモデル識別子を使用してAPIを利用できます:

claude-opus-4-1-20250805

まとめ

Claude Opus 4.1は、特にコーディングタスクにおいて大幅な性能向上を実現し、実世界のソフトウェア開発現場での実用性が大きく向上しました。企業からの評価も高く、特に大規模コードベースでの精密な作業や、マルチファイルでの複雑なリファクタリングにおいて、その能力が発揮されています。

開発者にとっては、APIの識別子を変更するだけで簡単に移行できる点も魅力的です。今後数週間以内にさらなる改善が予定されているため、Anthropicの動向に注目が集まっています。

フィードバックは常に歓迎されており、より優れたモデルの開発に貢献することができます。

Discussion