🤩

【10/23公開】Claudeの新機能computer useを使ってみた

2024/10/23に公開

はじめに

2024年10月23日、Antholopic社からアップグレードされた Claude 3.5 Sonnetと、新しいモデルの Claude 3.5 Haiku、新機能であるcomputer useのベータ版が公開されました。

https://www.anthropic.com/news/3-5-models-and-computer-use

アップグレードされた Claude 3.5 Sonnet は、前モデルに比べて全面的に改善されており、特にコーディングにおいて大幅な向上が見られていて、Claude 3.5 Haiku は、多くの評価において、以前の最大モデルである Claude 3 Opus のパフォーマンスに匹敵し、前世代の Haiku と同じコストと速度を実現しているようです。
本記事では、発表内容の概要と使用方法、使用した感想をお伝えしたいと思います。

発表内容

◼︎ Claude 3.5 Sonnetのアップデート

すでに業界をリードしていた分野であるコーディング能力が大幅に向上し、公開されている他のモデルよりも高いスコアを記録しました。
また、推論能力も向上し、複雑なソフトウェア開発プロセスにも適しています。

新バージョンの主な改善点

1. コーディング性能

  • SWE-benchのスコアが33.4%から49.0%に向上
  • 他の公開モデルを上回る性能を達成

2. ツール使用能力

  • 小売分野:62.6%から69.2%に向上
  • 航空分野:36.0%から46.0%に向上

3. 顧客からの評価

  • GitLab:レイテンシを増やすことなく推論能力が10%向上
  • Cognition:コーディング、計画、問題解決能力が向上
  • The Browser Company:他のモデルより優れたWeb自動化性能を確認

アップグレードされた Claude 3.5 Sonnet は、すべてのユーザーが利用でき、前モデルと同じ価格と速度で提供されています。

◼︎ Claude 3.5 Haikuの発表

処理速度とコストパフォーマンスに優れた新しいモデルで、コーディングタスクに特に優れています。
新しい Claude 3.5 Haiku は、今月後半にリリースされる予定です。

主な特徴:

1. 性能面

  • 前モデル(Claude 3 Haiku)と同じコストと速度を維持
  • 多くの分野で前世代の最上位モデル(Claude 3 Opus)を超える性能
  • コーディングタスクで特に優れた性能(SWE-bench Verifiedで40.6%のスコア)

2. 主な用途

  • ユーザー向け製品の開発
  • 特殊なサブエージェントタスク
  • 大量データからのパーソナライズされた体験の生成

3. リリース情報

  • 今月後半より以下のプラットフォームで利用可能
    • Anthropicのファーストパーティ API
    • Amazon Bedrock
    • Google Cloud の Vertex AI
  • 初期はテキストのみ、後に画像入力も対応予定

◼︎ computer useのベータ版公開

ユーザーの指示に従って、カーソルを動かしたり、クリックしたり、テキストを入力したりするなど、人間と同じようにコンピューターを操作できるようになりました。
この機能は、反復的なプロセスの自動化、ソフトウェアの構築とテスト、オープンエンドのタスクの実行などに役立ちます。

1. 基本コンセプト

  • 特定のツールではなく、一般的なコンピュータースキルを習得
  • 人間向けの標準的なツールやソフトウェアを直接操作可能

2. 技術的実装

  • コンピューターインターフェース操作用の新API開発
  • 人間の指示をコンピューターコマンドに変換
  • OSWorldベンチマークで高いスコアを達成
    • スクリーンショットのみ:14.9%(次点の7.8%を大幅に上回る)
    • 追加手順使用時:22.0%

3. 現状の制限と安全性への配慮

  • スクロール、ドラッグ、ズーム等の基本操作にまだ課題
  • スパムや詐欺等のリスクに対する積極的な安全対策
  • 危害の特定のための新しい分類システムを開発
  • 開発者には低リスクタスクからの開始を推奨

使ってみた

早速、computer useのベータ版を使ってみました!

使用方法

  1. Dockerをダウンロードする
  2. コマンドプロンプトで指定のコマンドを実行する

詳しくはこちらに手順が書かれています☟
https://github.com/explore

set ANTHROPIC_API_KEY=your_api_key
docker run -e ANTHROPIC_API_KEY=%ANTHROPIC_API_KEY% -v %USERPROFILE%/.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

実践

立ち上げてみました

Chatで以下を実行してみます。

" https://zenn.dev/acntechjp/articles/8f4d44ed9acc3c "にアクセスして記事を500字程度に要約したものをスプレッドシートに転記してください。

完了したようです。

チャットの内容は正しいですが、要約してくれた内容は少々誤字が含まれているようです。
これは、仮想キーボードで情報を入力していることで起こる誤字なのか。。
だとしても、これほどの精度なのはベータ版にしては十分ではないかという感想です。

ちなみに、簡単なゲームなら作って動かすこともできました。
ここでは紹介しませんが、気になる方はこちらの動画を参考に試してみてください!

https://www.youtube.com/watch?v=GAKHU7otO8I

おわりに

今回発表された技術はAIの進歩を示すものであり、AIがより多くの分野で活用される可能性を広げるものでした。
特に、computer useは画期的であり、AIが人間の作業をより直接的に支援できるようになることが期待されます。

computer useはArtifacts並みの衝撃ですかね。
後にChatGPTにも似た機能が公開されていましたが、Claudeがまた先を行っているように感じました。
日々更新される生成AIの情報に目を光らせる日々ですが、早すぎて追いつけません。笑
上手に使いこなせるようになりたいです。

Accenture Japan (有志)

Discussion