👏

Anthropic、最新AI「Claude 3.7 Sonnet」と開発者向け「Claude Code」を発表

2025/02/25に公開

2025年2月25日、Anthropicは最新のAIモデル「Claude 3.7 Sonnet」と開発者向けのエージェント型コーディングツール「Claude Code」を発表しました。今回は、これらの新サービスの特徴と機能について詳しく解説します。
https://www.anthropic.com/news/claude-3-7-sonnet

 Claude 3.7 Sonnet：業界初のハイブリッド推論モデルClaude 3.7 Sonnetは、Anthropicが開発した最も知能的なモデルで、業界初の「ハイブリッド推論モデル」として登場しました。このモデルの最大の特徴は、即時応答と段階的な思考プロセスを両立させている点です。

 主な特徴
拡張思考機能：ユーザーに見える形で段階的な思考プロセスを展開できる
コーディングとフロントエンド開発能力の大幅強化

AIの使い方を選択可能：通常の即時応答モードと拡張思考モードを切り替え可能

API利用時の柔軟性：思考に使うトークン数を細かく制御可能（最大128Kトークンまで）

実世界のビジネスタスク重視：数学やコンピュータサイエンスのコンペティション問題より、実際のビジネスユースケースに焦点

 拡張試行モデルhttps://docs.anthropic.com/ja/docs/about-claude/models/extended-thinking-models

標準モード：以前のClaudeモデルと同様に、内部の推論を表示せずに直接応答を提供

拡張思考モード：最終的な回答を提供する前にClaudeの推論プロセスを表示
Claude 3.7 Sonnetは、標準的な思考と拡張思考モードの両方が可能なハイブリッドモデルです。標準モードでは、Claude 3.7 SonnetはClaude 3ファミリーの他のモデルと同様に動作します。拡張思考モードでは、Claudeは応答を出力する前に思考過程を出力し、その推論プロセスを理解することができます。

 利用可能なプラットフォームと料金Claude 3.7 Sonnetは、以下のすべてのプラットフォームで利用可能です：
すべてのClaudeプラン（Free、Pro、Team、Enterprise）
Anthropic API
Amazon Bedrock
Google Cloud's Vertex AI
料金設定：
入力トークン：100万あたり$3
出力トークン：100万あたり$15（思考トークンを含む）
なお、拡張思考モードは無料プラン以外のすべてのプラットフォームで利用できます。

 パフォーマンスと評価Claude 3.7 Sonnetは複数のベンチマークテストでトップクラスの性能を示しています：

SWE-bench Verified：実世界のソフトウェア問題解決能力を評価するベンチマークで62.3%の精度（カスタムスキャフォールディングで70.3%）



TAU-bench：複雑な実世界タスクとツール操作のテストで81.2%（小売部門）、58.4%（航空部門）の精度


大手テック企業からの評価：

Cursor：実世界のコーディングタスクでベストインクラスの性能

Cognition：コード変更の計画やフルスタック更新の処理で他モデルを上回る

Vercel：複雑なエージェントワークフローの精度が優れている

Replit：他モデルが停滞する場面でも、洗練されたウェブアプリやダッシュボードを構築可能

Canva：本番環境レベルのコードを優れたデザインセンスで生成し、エラーも大幅に削減



 Claude Code：開発者のための革新的ツールClaude Codeは、Anthropicが初めて提供するエージェント型コーディングツールで、現在はresearchプレビュー版として限定公開されています。
https://youtu.be/AJpK3YTTKZ4

 主な機能コードの検索と読み取り
ファイル編集
テストの作成と実行
GitHubへのコミットとプッシュ
コマンドラインツールの使用
すべての操作で開発者に常に状況を報告し、協力的に作業を進めます。
https://docs.anthropic.com/ja/docs/agents-and-tools/claude-code/overview

 開発チームでの使用実績Anthropicの開発チームでは、Claude Codeが既に不可欠なツールとなっています：
テスト駆動開発
複雑な問題のデバッグ
大規模なリファクタリング
早期テストでは、通常45分以上かかる作業を一回の実行で完了させ、開発時間とオーバーヘッドを大幅に削減しました。

 今後の改善予定ツール呼び出しの信頼性向上
長時間実行コマンドのサポート追加
アプリ内レンダリングの改善
Claudeの機能理解の拡張

 GitHubインテグレーションの強化Claude 3.7 Sonnetのリリースに合わせて、Claude.aiのGitHubインテグレーション機能もすべてのプランで利用可能になりました。これにより開発者は自分のコードリポジトリを直接Claudeに接続できるようになります。
Claude 3.7 Sonnetの優れたコーディング能力を活かし、個人プロジェクト、仕事、オープンソースプロジェクトのバグ修正、機能開発、ドキュメント作成をより効率的に進めることができます。
https://intercom.help/anthropic-6f71807d7c3e/en/articles/10168395-setting-up-integrations-on-claude-ai

 責任あるAI開発Anthropicは、Claude 3.7 Sonnetの開発において、セキュリティ、安全性、信頼性に関する広範なテストと評価を行いました。その結果、有害と無害なリクエストの区別がより正確になり、前モデルと比較して不必要な拒否を45%削減しました。
また、今回のリリースに関するシステムカードでは、以下の内容が詳細に記載されています：
新しい安全性評価の結果
責任あるスケーリングポリシー評価の詳細
コンピュータ使用に伴う新たなリスク（特にプロンプトインジェクション攻撃）への対応
推論モデルがもたらす潜在的な安全性のメリット

 まとめClaude 3.7 SonnetとClaude Codeは、人間の能力を真に拡張するAIシステムへの重要な一歩です。深い推論能力、自律的な作業能力、効果的な協力を通じて、AIが人間の可能性を広げる未来へと私たちを近づけています。
Anthropicは、これらの新機能を通じてユーザーが創造する成果に期待し、モデルの改善と進化のためのフィードバックを歓迎しています。
これらの新サービスは、特にコーディングやウェブ開発に携わる開発者にとって、作業効率と品質を大幅に向上させる強力なツールとなることでしょう。Claude 3.7 Sonnetの拡張思考モードがもたらす段階的な思考プロセスと、Claude Codeの自律的な開発支援は、AIと人間の協力関係を新たな次元へと引き上げています。

 AppendixClaude 3.7 Sonnetはポケモン赤をプレイして３人のジムリーダーまで倒したみたいですね

https://x.com/AnthropicAI/status/1894107756287688901
サクッとClaude 3.7 Sonnetでポケモンみたいなゲームを作らせてみました。

出来上がったのがこちら...