😸
Anthropic、Claude 3.5 Sonnet更新とClaude 3.5 Haikリリースと新機能Computer useを発表
本記事は、Anthropic社が2024年10月23日に公式サイトで発表した内容をまとめたものです。
Executive Summary
📈 発表の要点
- Claude 3.5 Sonnetの性能が大幅に向上(SWEbenchで33.4%→49.0%)
- 新モデル「Claude 3.5 Haiku」の導入(SWEbenchで40.6%を達成)
- 革新的な「computer use」機能のパブリックベータ版をリリース
💡 提供について
- すべての更新は従来のモデルと同じ価格で提供
- Computer use機能は主要クラウドプラットフォームで利用可能
- Claude 3.5 Haikuは2024年10月下旬にリリース予定
Computer use機能について
「computer use」は、Claude 3.5 Sonnetに実装された新機能です。この機能により、Claudeは人間のようにコンピュータを操作することが可能になります:
- 画面を見る
- カーソルを動かす
- ボタンをクリックする
- テキスト入力する
提供プラットフォーム
本機能は以下のプラットフォームのAPIで利用可能です:
- Anthropic API
- Amazon Bedrock
- Google Cloud の Vertex AI
性能評価
- OSWorldのスクリーンショットベースの評価で14.9%を達成(業界最高スコア、次点は7.8%)
- タスク完了ステップ数を増やした場合は22.0%まで向上
企業での活用実績
- Replit: アプリケーション評価機能の開発に活用
- Asana、Canva、Cognition、DoorDash、The Browser Company: 可能性を模索中
現時点での制限事項
- スクロール、ドラッグ、ズームなどの基本的な操作が課題
- 操作が時として扱いにくく、エラーが発生する可能性あり
- 実験的な段階のため、開発者にはローリスクなタスクでの利用を推奨
Claude 3.5 Sonnetの性能向上
新しいClaude 3.5 Sonnetは、特にコーディング分野で顕著な進歩を示しています:
ベンチマーク結果
- SWEbench Verified: 33.4% → 49.0%
- TAUbench
- 小売ドメイン: 62.6% → 69.2%
- 航空ドメイン: 36.0% → 46.0%
- 他のすべての評価指標でも性能が向上
企業での活用実績
- GitLab: DevSecOpsタスクで10%の性能向上を確認
- The Browser Company: Webベースのワークフロー自動化で最高性能を評価
新モデル:Claude 3.5 Haiku
特徴
- Claude 3 Haikuと同等の処理速度とコストを維持
- 多くの指標でClaude 3 Opusを上回る性能
- SWEbench Verifiedで40.6%のスコアを達成
提供開始時期
- 2024年10月下旬リリース予定
- 初期リリースはテキストのみ対応
- 画像入力機能は後日追加予定
セキュリティと安全性への取り組み
事前評価
- US AI Safety InstituteとUK Safety Instituteによる事前デプロイメントテストを実施
- Responsible Scaling Policyに基づくASL2 Standardを維持
安全対策
- Computer use機能に特化した新しい分類器を開発
- 不正利用検出のための機能を実装
- 段階的な機能展開による安全性の確保
ベンチマーク結果の詳細
新しいClaude 3.5モデルファミリーの詳細な性能評価結果です。
アジェンティック機能と開発タスク
評価指標 | Sonnet(新) | Haiku | Sonnet(旧) | 向上率 |
---|---|---|---|---|
アジェンティックコーディング (SWE-bench) | 49.0% | 40.6% | 33.4% | +15.6% |
ツール使用 - 小売 (TAU-bench) | 69.2% | 51.0% | 62.6% | +6.6% |
ツール使用 - 航空 (TAU-bench) | 46.0% | 22.8% | 36.0% | +10.0% |
コーディング (HumanEval) | 93.7% | 88.1% | 92.0% | +1.7% |
知識と推論能力
評価指標 | Sonnet(新) | Haiku | Sonnet(旧) | 向上率 |
---|---|---|---|---|
学部レベル知識 (MMLU) | 78.0% | 65.0% | 75.1% | +2.9% |
大学院レベル推論 (GPQA) | 65.0% | 41.6% | 59.4% | +5.6% |
数学と視覚理解
評価指標 | Sonnet(新) | Haiku | Sonnet(旧) | 向上率 |
---|---|---|---|---|
数学問題解決 (MATH) | 78.3% | 69.2% | 71.1% | +7.2% |
視覚的Q&A (MMMU) | 70.4% | - | 68.3% | +2.1% |
高校数学競技 (AIME) | 16.0% | 5.3% | 9.6% | +6.4% |
Discussion