Claude 4 Opus/Sonnet発表
Claude 4が発表されましたね!
下記YouTube動画を見ながら、つらつらと内容を書いてみました!
英語でなかなか見るの大変ですが、この記事を参考にぜひご覧ください!
Antoropicが考える、次のAI Agentについて語られました。
-
1. Claude は利用者のそばで一緒に働き、あなたの仕事の進め方に合わせて適応できる
チャットやコード補完だけでなく、ユーザのワークフロー(ツール連携・ファイル構成・命名規則など)を学習し、小さな指示でも文脈を汲み取って補助してくれる ― いわゆる “copilot” 的な協調モードを示唆 -
2. 多くの手順が必要なタスクを Claude が単独で実行できる
タスク分解(planning)→実行(tool calling/API 連携)→検証 → 再試行というエージェント・ループを自律的に回せることを強調しています。たとえば データ収集 → 前処理 → 分析 → レポート生成 までを一括で任せられるイメージ -
3. 何時間もの連続作業でも性能を維持できる
長時間・長文脈でも“忘れない”大容量コンテキストウィンドウと、ステップ数が増えても推論品質を劣化させないアーキテクチャ改良を示唆
次に、人(動画だとLisaさん)とAI(Claude)との役割分担について語られています。「認証基盤をOAuth 2.0対応にリファクタリングする」という目標を題材にしています。
まずは、協力モードを例に。
タスク | 担当 |
---|---|
必要な改修を洗い出した PRD(製品要求文書)を作成 | Lisa |
既存コードベースとドキュメントをレビュー | Claude |
マイグレーション計画を立案 | Lisa |
コードを実装・更新 | Claude |
ドキュメントを更新 | Lisa |
テストを書く | Claude |
次に、独立モードを例に。
すべての行がClaude担当に変わっていますね。最新情報を取得するためのWeb検索やドキュメント検索を活用したり、企業の標準やベストプラクティスに基づいた自律的なコード生成も可能だそう。
「ツールを介した拡張思考」 — Claude は外部ツール(検索API、データ解析ライブラリなど)から返ってきた結果を 批判的に評価しながら次の手を自分で計画 できる。単に呼び出してレスポンスを返すだけでなく、その内容を咀嚼し、方針を修正・深掘りする “メタ思考” を回せる点を強調されています。
つまり、指示=What(何を達成したいか)、How(どうやるか)は Claudeが可能に。
また、メモリ機能が強化されました。
外部ファイルシステムと連携することで、まるで「自分専用のメモ帳」を持つような機能が実現されています。これを永続メモリと呼んでいます。
仕組み
方向 | 機能 | 詳細説明 | 具体例 |
---|---|---|---|
📤 記録する方向 Claude → External File System |
情報の保存 | Claudeが会話の中で「これは後で役立ちそうだな」と判断した重要な事実salient factsを外部に保存 | • あなたの好みや習慣 • 仕事のプロジェクト情報 • 重要な日程や締切 |
📥 取り出す方向 External File System → Claude |
情報の検索・活用 | 必要な時に、保存していた情報を検索して呼び出し、過去の会話で得た知識を活用 | • 以前話した内容の参照 • 継続的なタスクの進捗確認 • パーソナライズされた提案 |
実用的なメリット
メリット | 従来のAI | Claude 4の永続メモリ |
---|---|---|
関係性の継続 | 会話終了でリセット | 継続的な関係性の構築が可能 |
文脈の理解 | 毎回ゼロから説明が必要 | 文脈を踏まえた深いサポート |
効率性 | 同じ情報を繰り返し入力 | 一度伝えた情報は記憶・活用 |
Claude 4がポケモンを12時間連続プレイしながら、最初に立てた計画を忘れずに実行できたようです。
Claude 4はFollowing instructions(指示追従性)において大幅な改善を実現しました。特にエージェント用途で必要となる、複雑で長大なシステムプロンプト内の指示を正確に理解・実行できるよう、特別な訓練が施されています。
リワードハッキング対策の改善もしました。
リワードハッキングは、AIが「評価基準をごまかして高得点を取る」ズルい行動のことです。これは学生が「テストに出る問題だけ暗記して、本質的な理解をしない」のと同じですね。
「ズルをしたらペナルティ」となるデータセットを追加して改善しています。
また、Claude 4 OpusとClaude 4 Sonnetの使い分けについても語られています。
日常的な業務はジェネラリスト(Sonnet 4)に任せ、専門性の高い判断や戦略立案はエキスパート(Opus 4)に依頼するなのかなと。
2つのモデルの位置づけ
モデル | 位置づけ | 特徴 |
---|---|---|
Opus 4 | フラッグシップモデル | 最高性能・高コスト |
Sonnet 4 | ミッドレンジモデル | バランス型・コスト効率重視 |
Opus 4の推奨ユースケース 高難度・長尺・統括役
ユースケース | 具体例 |
---|---|
Frontier intelligence (最先端の知識探索) |
• 複雑な科学論文の解析 • 新しい問題領域での推論 • 高度な戦略立案 |
大規模コードベースの改修・移行 | • レガシーシステムのリファクタリング • フレームワーク移行(例:Vue2→Vue3) • アーキテクチャ全体の再設計 |
長期・自律タスク | • 数時間かかる調査レポート作成 • 複数段階の自動処理 • 継続的なモニタリング業務 |
サブエージェントの計画・オーケストレーション | • 複数AIの作業分担決定 • ワークフロー全体の設計 • 各ツールの連携調整 |
Sonnet 4の推奨ユースケース 汎用・高速・コスト効率
ユースケース | 具体例 |
---|---|
Sonnet 3.7からの置き換え | • 既存システムの性能向上 • コード変更なしでアップグレード |
Greenfield coding (新規開発) |
• 新しいWebアプリの作成 • プロトタイプ開発 • スクリプト作成 |
AIアシスタント | • カスタマーサポートBot • FAQ応答システム • 社内ヘルプデスク |
Human-in-the-loop系 | • 下書き生成→人間が最終確認 • 提案生成→承認フロー • データ分類の一次処理 |
サブエージェント | • Opus 4の指示で動く実行部隊 • 特定タスク専門の処理担当 |
Claude 4への移行の仕方についても。
Claude 3.7 Sonnetでは「簡潔に」「余計なことは言わないで」と、まるで話好きな部下を制御するような指示が必要でした。しかしClaude 4は違います。むしろ控えめで、必要最小限の応答を心がける性格。だから今度は「Feel free to go above and beyond if useful(役立つなら遠慮なく詳しく)」と、積極性を引き出す声かけが効果的だそうです。
Claude 4の実践テクニックも語られています。
1.Parallel tool calling(並列ツール呼び出し)
従来の非効率な処理:
1. Appleの情報を検索... (3秒待機)
2. 結果を取得
3. NVIDIAの情報を検索... (3秒待機)
4. 結果を取得
→ 合計6秒以上
Claude 4での並列処理:
1. Apple & NVIDIA を同時検索
2. 両方の結果を3秒で取得
→ 処理時間が半分に!
実装例:
用途 | 並列化の例 |
---|---|
市場調査 | 複数企業の株価・ニュースを一括取得 |
データ分析 | 複数DBへの同時クエリ実行 |
ファイル処理 | 複数CSVの同時読み込み |
2.Thinking and tool use(ツール結果を踏まえた熟慮)
自律的な品質管理フロー:
実践的な指示例:
「検索結果の信頼度を1-5で評価し、
3未満なら別のキーワードで再検索してください」
活用シーン:
- データクレンジング:異常値検出→修正→再検証の自動化
- 情報収集:初回検索→不足情報の特定→追加調査
- 品質保証:生成結果のセルフチェック→改善
3.Prompt for tool triggering(ツール起動条件の明示)
明確なトリガー定義で無駄を削減:
| トリガーワード | アクション | 不要な場合 |
|--------------|-----------|-----------|
| 「最新」「今日」「現在の」 | web.search起動 | 一般的な知識の質問 |
| 「私の」「うちの会社の」 | 内部DB検索 | 公開情報の質問 |
| 「計算して」「分析して」 | 計算ツール起動 | 概算で十分な場合 |
効果的なプロンプト例:
以下の条件でツールを使い分けてください:
- 時事性のある質問 → 必ずweb検索
- 2025年以降の出来事 → web検索で確認
- 一般的な知識 → 内部知識で回答(検索不要)
では!
Discussion