😸

Anthropic、Claude 3.5 Sonnet更新とClaude 3.5 Haikリリースと新機能Computer useを発表

2024/10/23に公開

本記事は、Anthropic社が2024年10月23日に公式サイトで発表した内容をまとめたものです。

参考:Anthropic社の発表内容

Executive Summary

📈 発表の要点

  • Claude 3.5 Sonnetの性能が大幅に向上(SWEbenchで33.4%→49.0%)
  • 新モデル「Claude 3.5 Haiku」の導入(SWEbenchで40.6%を達成)
  • 革新的な「computer use」機能のパブリックベータ版をリリース

💡 提供について

  • すべての更新は従来のモデルと同じ価格で提供
  • Computer use機能は主要クラウドプラットフォームで利用可能
  • Claude 3.5 Haikuは2024年10月下旬にリリース予定

Computer use機能について

「computer use」は、Claude 3.5 Sonnetに実装された新機能です。この機能により、Claudeは人間のようにコンピュータを操作することが可能になります:

  • 画面を見る
  • カーソルを動かす
  • ボタンをクリックする
  • テキスト入力する

提供プラットフォーム

本機能は以下のプラットフォームのAPIで利用可能です:

  • Anthropic API
  • Amazon Bedrock
  • Google Cloud の Vertex AI

性能評価

  • OSWorldのスクリーンショットベースの評価で14.9%を達成(業界最高スコア、次点は7.8%)
  • タスク完了ステップ数を増やした場合は22.0%まで向上

企業での活用実績

  • Replit: アプリケーション評価機能の開発に活用
  • Asana、Canva、Cognition、DoorDash、The Browser Company: 可能性を模索中

現時点での制限事項

  • スクロール、ドラッグ、ズームなどの基本的な操作が課題
  • 操作が時として扱いにくく、エラーが発生する可能性あり
  • 実験的な段階のため、開発者にはローリスクなタスクでの利用を推奨

Claude 3.5 Sonnetの性能向上

新しいClaude 3.5 Sonnetは、特にコーディング分野で顕著な進歩を示しています:

ベンチマーク結果

  • SWEbench Verified: 33.4% → 49.0%
  • TAUbench
    • 小売ドメイン: 62.6% → 69.2%
    • 航空ドメイン: 36.0% → 46.0%
  • 他のすべての評価指標でも性能が向上

企業での活用実績

  • GitLab: DevSecOpsタスクで10%の性能向上を確認
  • The Browser Company: Webベースのワークフロー自動化で最高性能を評価

新モデル:Claude 3.5 Haiku

特徴

  • Claude 3 Haikuと同等の処理速度とコストを維持
  • 多くの指標でClaude 3 Opusを上回る性能
  • SWEbench Verifiedで40.6%のスコアを達成

提供開始時期

  • 2024年10月下旬リリース予定
  • 初期リリースはテキストのみ対応
  • 画像入力機能は後日追加予定

セキュリティと安全性への取り組み

事前評価

  • US AI Safety InstituteとUK Safety Instituteによる事前デプロイメントテストを実施
  • Responsible Scaling Policyに基づくASL2 Standardを維持

安全対策

  • Computer use機能に特化した新しい分類器を開発
  • 不正利用検出のための機能を実装
  • 段階的な機能展開による安全性の確保

ベンチマーク結果の詳細

新しいClaude 3.5モデルファミリーの詳細な性能評価結果です。

アジェンティック機能と開発タスク

評価指標 Sonnet(新) Haiku Sonnet(旧) 向上率
アジェンティックコーディング (SWE-bench) 49.0% 40.6% 33.4% +15.6%
ツール使用 - 小売 (TAU-bench) 69.2% 51.0% 62.6% +6.6%
ツール使用 - 航空 (TAU-bench) 46.0% 22.8% 36.0% +10.0%
コーディング (HumanEval) 93.7% 88.1% 92.0% +1.7%

知識と推論能力

評価指標 Sonnet(新) Haiku Sonnet(旧) 向上率
学部レベル知識 (MMLU) 78.0% 65.0% 75.1% +2.9%
大学院レベル推論 (GPQA) 65.0% 41.6% 59.4% +5.6%

数学と視覚理解

評価指標 Sonnet(新) Haiku Sonnet(旧) 向上率
数学問題解決 (MATH) 78.3% 69.2% 71.1% +7.2%
視覚的Q&A (MMMU) 70.4% - 68.3% +2.1%
高校数学競技 (AIME) 16.0% 5.3% 9.6% +6.4%

Discussion