✨

Claude Opus 4.1のリリースまとめ

2025/08/06に公開

Claude

Anthropic

idea

!この記事はClaude Opus 4.1によって書かれています。

 はじめにAnthropic社は、Claude Opus 4の改良版であるClaude Opus 4.1をリリースしました。このアップグレードでは、エージェントタスク、実世界でのコーディング、推論能力において顕著な改善が見られます。同社は今後数週間以内に、さらに大幅な改善を加えたモデルのリリースも予定しています。
https://www.anthropic.com/news/claude-opus-4-1

 利用可能なプラットフォームOpus 4.1は以下のプラットフォームで利用可能です：

Claudeの有料ユーザー向け：Webインターフェースで利用可能

Claude Code：コーディング特化ツール

API：claude-opus-4-1-20250805として提供

Amazon Bedrock：AWSのAIサービス

Google Cloud Vertex AI：Google Cloudのプラットフォーム
価格設定はOpus 4と同じとなっています。

 主要な性能向上
 1. コーディング性能の飛躍的向上Claude Opus 4.1は、SWE-bench Verifiedにおいて**74.5%**という最先端のコーディング性能を達成しました。SWE-bench Verifiedは、実世界のソフトウェアエンジニアリングタスクを評価する業界標準のベンチマークです。

 2. 研究とデータ分析能力の強化以下の分野で特に改善が見られます：

詳細追跡能力：複雑な情報の管理と追跡

エージェント検索：自律的な情報検索と処理

 ベンチマーク結果Opus 4.1は複数のベンチマークで優れた結果を示しています：

 主要ベンチマーク
SWE-bench Verified: 74.5%（拡張思考なし）

Terminal-Bench: 高性能を達成（拡張思考なし）

TAU-bench: エージェントポリシータスクで優秀な結果

GPQA Diamond、MMMLU、MMMU、AIME: 拡張思考（最大64Kトークン）を使用して高スコアを達成

 技術的な特徴
 ハイブリッド推論モデルClaude Opus 4.1はハイブリッド推論モデルとして設計されています。これにより、タスクに応じて以下の2つのモードを使い分けることができます：

通常モード：迅速な応答が必要な場合

拡張思考モード：複雑な問題解決に最大64Kトークンまで使用

 SWE-benchでの実装アプローチClaude 4ファミリーのモデルでは、シンプルなスキャフォールドを使用しています：

Bashツール：コマンドライン操作

ファイル編集ツール：文字列置換による編集
Claude 3.7 Sonnetで使用されていた「計画ツール」は削除

 開発者向けの移行ガイド
 アップグレードの推奨Anthropicは、すべての用途でOpus 4からOpus 4.1へのアップグレードを推奨しています。

 API利用方法開発者は以下のモデル識別子を使用してAPIを利用できます：
claude-opus-4-1-20250805

 まとめClaude Opus 4.1は、特にコーディングタスクにおいて大幅な性能向上を実現し、実世界のソフトウェア開発現場での実用性が大きく向上しました。企業からの評価も高く、特に大規模コードベースでの精密な作業や、マルチファイルでの複雑なリファクタリングにおいて、その能力が発揮されています。
開発者にとっては、APIの識別子を変更するだけで簡単に移行できる点も魅力的です。今後数週間以内にさらなる改善が予定されているため、Anthropicの動向に注目が集まっています。
フィードバックは常に歓迎されており、より優れたモデルの開発に貢献することができます。

はじめに

利用可能なプラットフォーム

主要な性能向上

1. コーディング性能の飛躍的向上

2. 研究とデータ分析能力の強化

ベンチマーク結果

主要ベンチマーク

技術的な特徴

ハイブリッド推論モデル

SWE-benchでの実装アプローチ

開発者向けの移行ガイド

アップグレードの推奨

API利用方法

まとめ

Discussion