😸

Anthropic、Claude 3.5 Sonnet更新とClaude 3.5 Haikリリースと新機能Computer useを発表

2024/10/23に公開

本記事は、Anthropic社が2024年10月23日に公式サイトで発表した内容をまとめたものです。
参考：Anthropic社の発表内容

 Executive Summary📈 発表の要点
Claude 3.5 Sonnetの性能が大幅に向上（SWEbenchで33.4%→49.0%）
新モデル「Claude 3.5 Haiku」の導入（SWEbenchで40.6%を達成）
革新的な「computer use」機能のパブリックベータ版をリリース
💡 提供について
すべての更新は従来のモデルと同じ価格で提供
Computer use機能は主要クラウドプラットフォームで利用可能
Claude 3.5 Haikuは2024年10月下旬にリリース予定

 Computer use機能について「computer use」は、Claude 3.5 Sonnetに実装された新機能です。この機能により、Claudeは人間のようにコンピュータを操作することが可能になります：
画面を見る
カーソルを動かす
ボタンをクリックする
テキスト入力する

 提供プラットフォーム本機能は以下のプラットフォームのAPIで利用可能です：
Anthropic API
Amazon Bedrock
Google Cloud の Vertex AI

 性能評価OSWorldのスクリーンショットベースの評価で14.9%を達成（業界最高スコア、次点は7.8%）
タスク完了ステップ数を増やした場合は22.0%まで向上

 企業での活用実績Replit: アプリケーション評価機能の開発に活用
Asana、Canva、Cognition、DoorDash、The Browser Company: 可能性を模索中

 現時点での制限事項スクロール、ドラッグ、ズームなどの基本的な操作が課題
操作が時として扱いにくく、エラーが発生する可能性あり
実験的な段階のため、開発者にはローリスクなタスクでの利用を推奨

 Claude 3.5 Sonnetの性能向上新しいClaude 3.5 Sonnetは、特にコーディング分野で顕著な進歩を示しています：

 ベンチマーク結果SWEbench Verified: 33.4% → 49.0%
TAUbench
小売ドメイン: 62.6% → 69.2%
航空ドメイン: 36.0% → 46.0%

他のすべての評価指標でも性能が向上

 企業での活用実績GitLab: DevSecOpsタスクで10%の性能向上を確認
The Browser Company: Webベースのワークフロー自動化で最高性能を評価

 新モデル：Claude 3.5 Haiku
 特徴Claude 3 Haikuと同等の処理速度とコストを維持
多くの指標でClaude 3 Opusを上回る性能
SWEbench Verifiedで40.6%のスコアを達成

 提供開始時期2024年10月下旬リリース予定
初期リリースはテキストのみ対応
画像入力機能は後日追加予定

 セキュリティと安全性への取り組み
 事前評価US AI Safety InstituteとUK Safety Instituteによる事前デプロイメントテストを実施
Responsible Scaling Policyに基づくASL2 Standardを維持

 安全対策Computer use機能に特化した新しい分類器を開発
不正利用検出のための機能を実装
段階的な機能展開による安全性の確保

 ベンチマーク結果の詳細
新しいClaude 3.5モデルファミリーの詳細な性能評価結果です。

 エージェンティック機能と開発タスク

評価指標
Sonnet(新)
Haiku
Sonnet(旧)
向上率


エージェンティックコーディング (SWE-bench)
49.0%
40.6%
33.4%
+15.6%

ツール使用 - 小売 (TAU-bench)
69.2%
51.0%
62.6%
+6.6%

ツール使用 - 航空 (TAU-bench)
46.0%
22.8%
36.0%
+10.0%

コーディング (HumanEval)
93.7%
88.1%
92.0%
+1.7%


 知識と推論能力

評価指標
Sonnet(新)
Haiku
Sonnet(旧)
向上率


学部レベル知識 (MMLU)
78.0%
65.0%
75.1%
+2.9%

大学院レベル推論 (GPQA)
65.0%
41.6%
59.4%
+5.6%


 数学と視覚理解

評価指標
Sonnet(新)
Haiku
Sonnet(旧)
向上率


数学問題解決 (MATH)
78.3%
69.2%
71.1%
+7.2%

視覚的Q&A (MMMU)
70.4%
-
68.3%
+2.1%

高校数学競技 (AIME)
16.0%
5.3%
9.6%
+6.4%

評価指標	Sonnet(新)	Haiku	Sonnet(旧)	向上率
エージェンティックコーディング (SWE-bench)	49.0%	40.6%	33.4%	+15.6%
ツール使用 - 小売 (TAU-bench)	69.2%	51.0%	62.6%	+6.6%
ツール使用 - 航空 (TAU-bench)	46.0%	22.8%	36.0%	+10.0%
コーディング (HumanEval)	93.7%	88.1%	92.0%	+1.7%

評価指標	Sonnet(新)	Haiku	Sonnet(旧)	向上率
学部レベル知識 (MMLU)	78.0%	65.0%	75.1%	+2.9%
大学院レベル推論 (GPQA)	65.0%	41.6%	59.4%	+5.6%

評価指標	Sonnet(新)	Haiku	Sonnet(旧)	向上率
数学問題解決 (MATH)	78.3%	69.2%	71.1%	+7.2%
視覚的Q&A (MMMU)	70.4%	-	68.3%	+2.1%
高校数学競技 (AIME)	16.0%	5.3%	9.6%	+6.4%

Executive Summary

Computer use機能について

提供プラットフォーム

性能評価

企業での活用実績

現時点での制限事項

Claude 3.5 Sonnetの性能向上

ベンチマーク結果

企業での活用実績

新モデル：Claude 3.5 Haiku

特徴

提供開始時期

セキュリティと安全性への取り組み

事前評価

安全対策

ベンチマーク結果の詳細

エージェンティック機能と開発タスク

知識と推論能力

数学と視覚理解

Discussion