🤩

【10/23公開】Claudeの新機能computer useを使ってみた

Masaki Kudo

2024/10/23に公開

 はじめに2024年10月23日、Antholopic社からアップグレードされた Claude 3.5 Sonnetと、新しいモデルの Claude 3.5 Haiku、新機能であるcomputer useのベータ版が公開されました。
https://www.anthropic.com/news/3-5-models-and-computer-use
アップグレードされた Claude 3.5 Sonnet は、前モデルに比べて全面的に改善されており、特にコーディングにおいて大幅な向上が見られていて、Claude 3.5 Haiku は、多くの評価において、以前の最大モデルである Claude 3 Opus のパフォーマンスに匹敵し、前世代の Haiku と同じコストと速度を実現しているようです。

本記事では、発表内容の概要と使用方法、使用した感想をお伝えしたいと思います。

 発表内容
 ◼︎ Claude 3.5 Sonnetのアップデートすでに業界をリードしていた分野であるコーディング能力が大幅に向上し、公開されている他のモデルよりも高いスコアを記録しました。

また、推論能力も向上し、複雑なソフトウェア開発プロセスにも適しています。


 新バージョンの主な改善点1. コーディング性能
SWE-benchのスコアが33.4%から49.0%に向上
他の公開モデルを上回る性能を達成
2. ツール使用能力
小売分野：62.6%から69.2%に向上
航空分野：36.0%から46.0%に向上
3. 顧客からの評価
GitLab：レイテンシを増やすことなく推論能力が10%向上
Cognition：コーディング、計画、問題解決能力が向上
The Browser Company：他のモデルより優れたWeb自動化性能を確認
アップグレードされた Claude 3.5 Sonnet は、すべてのユーザーが利用でき、前モデルと同じ価格と速度で提供されています。

 ◼︎ Claude 3.5 Haikuの発表処理速度とコストパフォーマンスに優れた新しいモデルで、コーディングタスクに特に優れています。

新しい Claude 3.5 Haiku は、今月後半にリリースされる予定です。

 主な特徴：1. 性能面
前モデル（Claude 3 Haiku）と同じコストと速度を維持
多くの分野で前世代の最上位モデル（Claude 3 Opus）を超える性能
コーディングタスクで特に優れた性能（SWE-bench Verifiedで40.6%のスコア）
2. 主な用途
ユーザー向け製品の開発
特殊なサブエージェントタスク
大量データからのパーソナライズされた体験の生成
3. リリース情報
今月後半より以下のプラットフォームで利用可能
Anthropicのファーストパーティ API
Amazon Bedrock
Google Cloud の Vertex AI

初期はテキストのみ、後に画像入力も対応予定

 ◼︎ computer useのベータ版公開ユーザーの指示に従って、カーソルを動かしたり、クリックしたり、テキストを入力したりするなど、人間と同じようにコンピューターを操作できるようになりました。

この機能は、反復的なプロセスの自動化、ソフトウェアの構築とテスト、オープンエンドのタスクの実行などに役立ちます。
1. 基本コンセプト
特定のツールではなく、一般的なコンピュータースキルを習得
人間向けの標準的なツールやソフトウェアを直接操作可能
2. 技術的実装
コンピューターインターフェース操作用の新API開発
人間の指示をコンピューターコマンドに変換
OSWorldベンチマークで高いスコアを達成
スクリーンショットのみ：14.9%（次点の7.8%を大幅に上回る）
追加手順使用時：22.0%

3. 現状の制限と安全性への配慮
スクロール、ドラッグ、ズーム等の基本操作にまだ課題
スパムや詐欺等のリスクに対する積極的な安全対策
危害の特定のための新しい分類システムを開発
開発者には低リスクタスクからの開始を推奨

 使ってみた早速、computer useのベータ版を使ってみました！

 使用方法Dockerをダウンロードする
コマンドプロンプトで指定のコマンドを実行する
詳しくはこちらに手順が書かれています☟

https://github.com/explore
!Windows環境で手順通り実行するとうまくいかない場合は、下記コマンドを実行してみてください。
set ANTHROPIC_API_KEY=your_api_key
docker run -e ANTHROPIC_API_KEY=%ANTHROPIC_API_KEY% -v %USERPROFILE%/.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

 実践立ち上げてみました
Chatで以下を実行してみます。
" https://zenn.dev/acntechjp/articles/8f4d44ed9acc3c "にアクセスして記事を500字程度に要約したものをスプレッドシートに転記してください。
完了したようです。

チャットの内容は正しいですが、要約してくれた内容は少々誤字が含まれているようです。

これは、仮想キーボードで情報を入力していることで起こる誤字なのか。。

だとしても、これほどの精度なのはベータ版にしては十分ではないかという感想です。
ちなみに、簡単なゲームなら作って動かすこともできました。

ここでは紹介しませんが、気になる方はこちらの動画を参考に試してみてください！
https://www.youtube.com/watch?v=GAKHU7otO8I

 おわりに今回発表された技術はAIの進歩を示すものであり、AIがより多くの分野で活用される可能性を広げるものでした。

特に、computer useは画期的であり、AIが人間の作業をより直接的に支援できるようになることが期待されます。
computer useはArtifacts並みの衝撃ですかね。

後にChatGPTにも似た機能が公開されていましたが、Claudeがまた先を行っているように感じました。

日々更新される生成AIの情報に目を光らせる日々ですが、早すぎて追いつけません。笑

上手に使いこなせるようになりたいです。

Accenture Japan (有志)

アクセンチュア株式会社に所属する社員有志による運営です。アクセンチュアの社員による様々な発信をまとめています。なお、投稿内容は社員個人の見解であり、所属する組織を代表するものではありません。

Discussion

ログインするとコメントできます