👏

Anthropic、最新AI「Claude 3.7 Sonnet」と開発者向け「Claude Code」を発表

2025/02/25に公開

2025年2月25日、Anthropicは最新のAIモデル「Claude 3.7 Sonnet」と開発者向けのエージェント型コーディングツール「Claude Code」を発表しました。今回は、これらの新サービスの特徴と機能について詳しく解説します。

https://www.anthropic.com/news/claude-3-7-sonnet

Claude 3.7 Sonnet:業界初のハイブリッド推論モデル

Claude 3.7 Sonnetは、Anthropicが開発した最も知能的なモデルで、業界初の「ハイブリッド推論モデル」として登場しました。このモデルの最大の特徴は、即時応答と段階的な思考プロセスを両立させている点です。

主な特徴

  • 拡張思考機能:ユーザーに見える形で段階的な思考プロセスを展開できる
  • コーディングとフロントエンド開発能力の大幅強化
  • AIの使い方を選択可能:通常の即時応答モードと拡張思考モードを切り替え可能
  • API利用時の柔軟性:思考に使うトークン数を細かく制御可能(最大128Kトークンまで)
  • 実世界のビジネスタスク重視:数学やコンピュータサイエンスのコンペティション問題より、実際のビジネスユースケースに焦点

拡張試行モデル

https://docs.anthropic.com/ja/docs/about-claude/models/extended-thinking-models

  • 標準モード:以前のClaudeモデルと同様に、内部の推論を表示せずに直接応答を提供
  • 拡張思考モード:最終的な回答を提供する前にClaudeの推論プロセスを表示

Claude 3.7 Sonnetは、標準的な思考と拡張思考モードの両方が可能なハイブリッドモデルです。標準モードでは、Claude 3.7 SonnetはClaude 3ファミリーの他のモデルと同様に動作します。拡張思考モードでは、Claudeは応答を出力する前に思考過程を出力し、その推論プロセスを理解することができます。

利用可能なプラットフォームと料金

Claude 3.7 Sonnetは、以下のすべてのプラットフォームで利用可能です:

  • すべてのClaudeプラン(Free、Pro、Team、Enterprise)
  • Anthropic API
  • Amazon Bedrock
  • Google Cloud's Vertex AI

料金設定

  • 入力トークン:100万あたり$3
  • 出力トークン:100万あたり$15(思考トークンを含む)

なお、拡張思考モードは無料プラン以外のすべてのプラットフォームで利用できます。

パフォーマンスと評価

Claude 3.7 Sonnetは複数のベンチマークテストでトップクラスの性能を示しています:

  • SWE-bench Verified:実世界のソフトウェア問題解決能力を評価するベンチマークで62.3%の精度(カスタムスキャフォールディングで70.3%)
  • TAU-bench:複雑な実世界タスクとツール操作のテストで81.2%(小売部門)、58.4%(航空部門)の精度

大手テック企業からの評価:

  • Cursor:実世界のコーディングタスクでベストインクラスの性能
  • Cognition:コード変更の計画やフルスタック更新の処理で他モデルを上回る
  • Vercel:複雑なエージェントワークフローの精度が優れている
  • Replit:他モデルが停滞する場面でも、洗練されたウェブアプリやダッシュボードを構築可能
  • Canva:本番環境レベルのコードを優れたデザインセンスで生成し、エラーも大幅に削減

Claude Code:開発者のための革新的ツール

Claude Codeは、Anthropicが初めて提供するエージェント型コーディングツールで、現在はresearchプレビュー版として限定公開されています。

https://youtu.be/AJpK3YTTKZ4

主な機能

  • コードの検索と読み取り
  • ファイル編集
  • テストの作成と実行
  • GitHubへのコミットとプッシュ
  • コマンドラインツールの使用

すべての操作で開発者に常に状況を報告し、協力的に作業を進めます。

https://docs.anthropic.com/ja/docs/agents-and-tools/claude-code/overview

開発チームでの使用実績

Anthropicの開発チームでは、Claude Codeが既に不可欠なツールとなっています:

  • テスト駆動開発
  • 複雑な問題のデバッグ
  • 大規模なリファクタリング

早期テストでは、通常45分以上かかる作業を一回の実行で完了させ、開発時間とオーバーヘッドを大幅に削減しました。

今後の改善予定

  • ツール呼び出しの信頼性向上
  • 長時間実行コマンドのサポート追加
  • アプリ内レンダリングの改善
  • Claudeの機能理解の拡張

GitHubインテグレーションの強化

Claude 3.7 Sonnetのリリースに合わせて、Claude.aiのGitHubインテグレーション機能もすべてのプランで利用可能になりました。これにより開発者は自分のコードリポジトリを直接Claudeに接続できるようになります。

Claude 3.7 Sonnetの優れたコーディング能力を活かし、個人プロジェクト、仕事、オープンソースプロジェクトのバグ修正、機能開発、ドキュメント作成をより効率的に進めることができます。

https://intercom.help/anthropic-6f71807d7c3e/en/articles/10168395-setting-up-integrations-on-claude-ai

責任あるAI開発

Anthropicは、Claude 3.7 Sonnetの開発において、セキュリティ、安全性、信頼性に関する広範なテストと評価を行いました。その結果、有害と無害なリクエストの区別がより正確になり、前モデルと比較して不必要な拒否を45%削減しました。

また、今回のリリースに関するシステムカードでは、以下の内容が詳細に記載されています:

  • 新しい安全性評価の結果
  • 責任あるスケーリングポリシー評価の詳細
  • コンピュータ使用に伴う新たなリスク(特にプロンプトインジェクション攻撃)への対応
  • 推論モデルがもたらす潜在的な安全性のメリット

まとめ

Claude 3.7 SonnetとClaude Codeは、人間の能力を真に拡張するAIシステムへの重要な一歩です。深い推論能力、自律的な作業能力、効果的な協力を通じて、AIが人間の可能性を広げる未来へと私たちを近づけています。

Anthropicは、これらの新機能を通じてユーザーが創造する成果に期待し、モデルの改善と進化のためのフィードバックを歓迎しています。


これらの新サービスは、特にコーディングやウェブ開発に携わる開発者にとって、作業効率と品質を大幅に向上させる強力なツールとなることでしょう。Claude 3.7 Sonnetの拡張思考モードがもたらす段階的な思考プロセスと、Claude Codeの自律的な開発支援は、AIと人間の協力関係を新たな次元へと引き上げています。

Appendix

Claude 3.7 Sonnetはポケモン赤をプレイして3人のジムリーダーまで倒したみたいですね
https://x.com/AnthropicAI/status/1894107756287688901

サクッとClaude 3.7 Sonnetでポケモンみたいなゲームを作らせてみました。
出来上がったのがこちら...

Discussion