🍉

Claude 4 Opus/Sonnet発表

Claude 4が発表されましたね!

下記YouTube動画を見ながら、つらつらと内容を書いてみました!
英語でなかなか見るの大変ですが、この記事を参考にぜひご覧ください!
https://www.youtube.com/watch?v=nZCy8E5jlok

Antoropicが考える、次のAI Agentについて語られました。

  • 1. Claude は利用者のそばで一緒に働き、あなたの仕事の進め方に合わせて適応できる
    チャットやコード補完だけでなく、ユーザのワークフロー(ツール連携・ファイル構成・命名規則など)を学習し、小さな指示でも文脈を汲み取って補助してくれる ― いわゆる “copilot” 的な協調モードを示唆
  • 2. 多くの手順が必要なタスクを Claude が単独で実行できる
    タスク分解(planning)→実行(tool calling/API 連携)→検証 → 再試行というエージェント・ループを自律的に回せることを強調しています。たとえば データ収集 → 前処理 → 分析 → レポート生成 までを一括で任せられるイメージ
  • 3. 何時間もの連続作業でも性能を維持できる
    長時間・長文脈でも“忘れない”大容量コンテキストウィンドウと、ステップ数が増えても推論品質を劣化させないアーキテクチャ改良を示唆

次に、人(動画だとLisaさん)とAI(Claude)との役割分担について語られています。「認証基盤をOAuth 2.0対応にリファクタリングする」という目標を題材にしています。

まずは、協力モードを例に。

タスク 担当
必要な改修を洗い出した PRD(製品要求文書)を作成 Lisa
既存コードベースとドキュメントをレビュー Claude
マイグレーション計画を立案 Lisa
コードを実装・更新 Claude
ドキュメントを更新 Lisa
テストを書く Claude

次に、独立モードを例に。
すべての行がClaude担当に変わっていますね。最新情報を取得するためのWeb検索やドキュメント検索を活用したり、企業の標準やベストプラクティスに基づいた自律的なコード生成も可能だそう。

「ツールを介した拡張思考」 — Claude は外部ツール(検索API、データ解析ライブラリなど)から返ってきた結果を 批判的に評価しながら次の手を自分で計画 できる。単に呼び出してレスポンスを返すだけでなく、その内容を咀嚼し、方針を修正・深掘りする “メタ思考” を回せる点を強調されています。
つまり、指示=What(何を達成したいか)、How(どうやるか)は Claudeが可能に。

また、メモリ機能が強化されました。
外部ファイルシステムと連携することで、まるで「自分専用のメモ帳」を持つような機能が実現されています。これを永続メモリと呼んでいます。

仕組み

方向 機能 詳細説明 具体例
📤 記録する方向
Claude → External File System
情報の保存 Claudeが会話の中で「これは後で役立ちそうだな」と判断した重要な事実salient factsを外部に保存 • あなたの好みや習慣
• 仕事のプロジェクト情報
• 重要な日程や締切
📥 取り出す方向
External File System → Claude
情報の検索・活用 必要な時に、保存していた情報を検索して呼び出し、過去の会話で得た知識を活用 • 以前話した内容の参照
• 継続的なタスクの進捗確認
• パーソナライズされた提案

実用的なメリット

メリット 従来のAI Claude 4の永続メモリ
関係性の継続 会話終了でリセット 継続的な関係性の構築が可能
文脈の理解 毎回ゼロから説明が必要 文脈を踏まえた深いサポート
効率性 同じ情報を繰り返し入力 一度伝えた情報は記憶・活用

Claude 4がポケモンを12時間連続プレイしながら、最初に立てた計画を忘れずに実行できたようです。

Claude 4はFollowing instructions(指示追従性)において大幅な改善を実現しました。特にエージェント用途で必要となる、複雑で長大なシステムプロンプト内の指示を正確に理解・実行できるよう、特別な訓練が施されています。

リワードハッキング対策の改善もしました。
リワードハッキングは、AIが「評価基準をごまかして高得点を取る」ズルい行動のことです。これは学生が「テストに出る問題だけ暗記して、本質的な理解をしない」のと同じですね。
「ズルをしたらペナルティ」となるデータセットを追加して改善しています。

また、Claude 4 OpusとClaude 4 Sonnetの使い分けについても語られています。
日常的な業務はジェネラリスト(Sonnet 4)に任せ、専門性の高い判断や戦略立案はエキスパート(Opus 4)に依頼するなのかなと。

2つのモデルの位置づけ

モデル 位置づけ 特徴
Opus 4 フラッグシップモデル 最高性能・高コスト
Sonnet 4 ミッドレンジモデル バランス型・コスト効率重視

Opus 4の推奨ユースケース 高難度・長尺・統括役

ユースケース 具体例
Frontier intelligence
(最先端の知識探索)
• 複雑な科学論文の解析
• 新しい問題領域での推論
• 高度な戦略立案
大規模コードベースの改修・移行 • レガシーシステムのリファクタリング
• フレームワーク移行(例:Vue2→Vue3)
• アーキテクチャ全体の再設計
長期・自律タスク • 数時間かかる調査レポート作成
• 複数段階の自動処理
• 継続的なモニタリング業務
サブエージェントの計画・オーケストレーション • 複数AIの作業分担決定
• ワークフロー全体の設計
• 各ツールの連携調整

Sonnet 4の推奨ユースケース 汎用・高速・コスト効率

ユースケース 具体例
Sonnet 3.7からの置き換え • 既存システムの性能向上
• コード変更なしでアップグレード
Greenfield coding
(新規開発)
• 新しいWebアプリの作成
• プロトタイプ開発
• スクリプト作成
AIアシスタント • カスタマーサポートBot
• FAQ応答システム
• 社内ヘルプデスク
Human-in-the-loop系 • 下書き生成→人間が最終確認
• 提案生成→承認フロー
• データ分類の一次処理
サブエージェント • Opus 4の指示で動く実行部隊
• 特定タスク専門の処理担当

Claude 4への移行の仕方についても。
Claude 3.7 Sonnetでは「簡潔に」「余計なことは言わないで」と、まるで話好きな部下を制御するような指示が必要でした。しかしClaude 4は違います。むしろ控えめで、必要最小限の応答を心がける性格。だから今度は「Feel free to go above and beyond if useful(役立つなら遠慮なく詳しく)」と、積極性を引き出す声かけが効果的だそうです。

Claude 4の実践テクニックも語られています。

1.Parallel tool calling(並列ツール呼び出し)
従来の非効率な処理

1. Appleの情報を検索... (3秒待機)
2. 結果を取得
3. NVIDIAの情報を検索... (3秒待機)  
4. 結果を取得
→ 合計6秒以上

Claude 4での並列処理

1. Apple & NVIDIA を同時検索
2. 両方の結果を3秒で取得
→ 処理時間が半分に!

実装例

用途 並列化の例
市場調査 複数企業の株価・ニュースを一括取得
データ分析 複数DBへの同時クエリ実行
ファイル処理 複数CSVの同時読み込み

2.Thinking and tool use(ツール結果を踏まえた熟慮)
自律的な品質管理フロー

実践的な指示例

「検索結果の信頼度を1-5で評価し、
 3未満なら別のキーワードで再検索してください」

活用シーン

  • データクレンジング:異常値検出→修正→再検証の自動化
  • 情報収集:初回検索→不足情報の特定→追加調査
  • 品質保証:生成結果のセルフチェック→改善
    3.Prompt for tool triggering(ツール起動条件の明示)
    明確なトリガー定義で無駄を削減
    | トリガーワード | アクション | 不要な場合 |
    |--------------|-----------|-----------|
    | 「最新」「今日」「現在の」 | web.search起動 | 一般的な知識の質問 |
    | 「私の」「うちの会社の」 | 内部DB検索 | 公開情報の質問 |
    | 「計算して」「分析して」 | 計算ツール起動 | 概算で十分な場合 |
    効果的なプロンプト例
以下の条件でツールを使い分けてください:
- 時事性のある質問 → 必ずweb検索
- 2025年以降の出来事 → web検索で確認
- 一般的な知識 → 内部知識で回答(検索不要)

では!

Accenture Japan (有志)

Discussion