🔍

Claude Code (Actions) 精度低下仮説と検証方法まとめ【2025-08-11 最新版】

に公開
4

はじめに

この記事は 2025-05 に公開した「Claude Code の精度低下仮説と検証方法」を、2025-08-09 時点の最新情報(公式ドキュメント/npm/GitHub Issues/メディア報道)で再整理したものです。v1.0.67 の Paste 直後フリーズ修正確認v1.0.62 の Sub-Agent 認識不良の経緯1.0.70–72 でも散発する Context-Limit 400 の継続報告、そして 8/28 施行の週次レートリミット を前提に運用・検証手順を刷新しました。


🔔 8/11 速報:直近 Issue/PR ウォッチ(claude-code / claude-code-action)

claude-code(ホットな Issue)

  • v72 で @agent 補完が消える回帰(v70/71 は正常、macOS で再現)。暫定:v71 へピン推奨。
  • 並行エージェント実行後に 400(tool_usetool_result ミスマッチ)。タイムアウト復帰や /exit 後に再現(v1.0.72, macOS)。
  • ツール呼び出し失敗でエージェント実行が停止(Tool Call Failures)。
  • Unicode サロゲートで JSON シリアライズ失敗(大型ペイロード時、macOS)。
  • 文脈保持の弱体化・型エラー増加の回帰報告(コンテキスト喪失や誤推論の増加)。
  • マルチエージェント+Task 周りで高負荷フリーズ(JSON 処理中に CPU 100%)。
  • Windows:OpenTelemetry が無効化できず、個人情報っぽいイベントが 30 秒毎に送出との報告。

claude-code(オープン PR 主要)

  • #5490: Docker 内で Claude Code を動作、ホスト資格情報をプロキシ置換(Draft)。
  • #5435: GitHub ワークフローの Statsig イベントロギング拡張。
  • #4943: bash / zsh / fish のシェル補完追加。
  • #2466: Docker イメージの自動ビルドを GitHub Actions で。

claude-code-action(ホットな Issue / PR)

  • Issue: slash-commands ディレクトリ欠如で失敗(高優先度で修正中)。
  • Issue: レビュー情報が古い/更新されない、PR 反映が不安定という継続報告。
  • PR(Open ~35): v1.0 系の実装(イベント駆動のモード自動判定、スラッシュコマンド、プロンプト統一;後方互換あり)。
  • PR: slash-commands 非存在時のハンドリング改善、リモートに無いブランチ比較エラー修正、ttyd / cloudflared tunnel 連携(Draft)。

実務メモ(8/11 反映)

  • v72 回帰があるため、CI/長時間バッチは既知安定版(例: v71)へピン。検証環境で v72 を評価。
  • 並行エージェント後の 400 は、手順の細分化+tool_result 整合の明示で一時回避(長手順は刻む、連続コマンドを避ける)。
  • claude-code-action は v1.0 化で改善中だが、フォルダ前提など運用要件が修正途上。サンプル通りの配置を厳守。
  • Windows のテレメトリ無効化問題はポリシー準拠観点で要検証。

🆕 2025-08 時点で押さえておくべき大きな変化(8/9更新)

項目 5 月時点 8/9 時点(最新)
最新バージョン v1.0.24〜1.0.61 v1.0.72(npm に 8/9 公開)
Plan Mode デフォルト寄りで賛否 安定運用可能(必要に応じ --permission-mode plan で明示)
Interleaved Thinking β(手動ヘッダ) CLIがヘッダを自動付与 → 衝突時は無効化可(DISABLE_INTERLEAVED_THINKING=1
Sub-Agents 未実装 /agents で作成・実行可能(1.0.62 で認識不良報告→以降改善)
MCP 通信 SSE/HTTP β 6/18 から正式サポート/mcp、OAuth 等)
レートリミット 5 時間ローリングのみ 8/28 から週次上限が追加(影響は <5% 見込み)

根拠:npm の最新バージョン(1.0.72)、公式リリースノート(Hooks、SSE/HTTP MCP)、Sub-Agents ドキュメント、CLI リファレンス、Interleaved Thinking のヘッダと無効化のやり取り、週次上限は公式ポストと報道。


報告されている主な症状(8/9版)

  1. Sub-Agent/権限まわり

    • 1.0.62 で「/agents に出ない/使えない」系の回帰が多発(Windows 比率高め)。その後のリリースで改善報告あり。--allowedTools の非対話(-p)時の挙動やパターン指定の不一致など、細かな不具合は継続議論中。
  2. Interleaved Thinking 起因のヘッダ衝突

    • Vertex 経由で anthropic-beta: interleaved-thinking-… が原因の 400 になる事例。DISABLE_INTERLEAVED_THINKING=1 で回避できたという報告。
  3. Context-Limit 400(過長文時)

    • 1.0.70〜72 でも #4951 系の 400 が散発。/compact のタイミングや圧縮品質に関する議論は継続。
  4. /compactCLAUDE.md の扱い

    • /compact 後に CLAUDE.md が読み直されず保護ルール喪失といった報告(#4517 ほか)。自動保存・削除まわりでのデータ消失報告も散発。

✅ 修正確認済みの事項

CLI フリーズ問題(#4772)

  • 1.0.63 で Paste 直後に固まる不具合はすでに Closed。1.0.67 以降で再現報告は沈静化。

精度低下の原因仮説アップデート(8/9差し替え)

仮説⑤:Interleaved Thinking × Sub-Agent のオーバーヘッド

  • Interleaved(並列思考)で <thinking> ブロックが増え、トークン消費増 → 途中切れ印象を悪化させるケース。Vertex では βヘッダ衝突も。必要時のみ有効化/衝突環境では環境変数で停止が無難。

仮説⑥:高頻度マイクロリリースによる回帰リスク

  • npm では連日の小刻み更新(現在 1.0.72)。CI で自動更新が入ると挙動が日替わりになりやすい。固定+自動更新無効化が安全。

運用上は「コンテキスト圧縮の質」と「Plan/Interleaved/Sub-Agents のメッセージ膨張」の合わせ技で“文脈忘却”体験が起きやすい、という見立てで概ね一致。/compact 後に CLAUDE.md を即再ロードする運用は今も有効。


検証方法(2025-08 更新)

1) バージョン固定ベンチ(安定帯 vs 最新)

# 例: 1.0.59 と 1.0.72 を比較
for ver in 1.0.59 1.0.72; do
  npm i -g @anthropic-ai/claude-code@$ver
  claude eval human-eval.json \
    --permission-mode auto \
    --report "report-${ver}.json"
done
  • Interleaved 衝突環境では DISABLE_INTERLEAVED_THINKING=1 を併用して純粋にモデル差のみ比較。

2) Sub-Agent 回帰テスト

# .github/workflows/agent-regression.yml
matrix:
  cc_version: ['v1.0.59', 'v1.0.72']
steps:
  - run: |
      claude /agents list
      claude /agents run refactor README.md
      git diff --stat > agent-${{ matrix.cc_version }}.txt
  • /agents 一覧・実行の可否と差分有無を比較。1.0.62 系の認識不良は既知事象。

3) レートリミット耐性テスト(8/28 以降想定)

# 実行ログに RateLimitError が出る閾値を記録
end=$((SECONDS+18000))  # 5時間
while [ $SECONDS -lt $end ]; do
  claude 'Summarize CHANGELOG' --verbose -p || true
done
  • 8/28 から週次上限が追加(既存の 5 時間ウィンドウは維持)。事前にトークン集計とアラート設定を。

今すぐ使えるワークアラウンド(8/9版)

目的 設定例 補足
回帰の影響を最小化 export DISABLE_AUTOUPDATER=1(または設定で autoUpdates=false 自動更新停止は公式設定で可能。
Interleaved 衝突を回避 export DISABLE_INTERLEAVED_THINKING=1 Vertex 等でのβヘッダ衝突時の暫定策。
権限周りを厳格化 --allowedTools … / --disallowedTools …(または settings.json の permissions) CLI 公式フラグ/設定を優先。--dangerously-skip-permissions は避ける。
/compact 後のルール喪失対策 /compact 実行 → 即 CLAUDE.md 再ロード(/read など) /compact 起因のルール脱落報告あり。

🎯 推奨アクション(8/9版)

  1. プロダクション CI は バージョン固定+自動更新オフ(例: 1.0.59 など安定帯を採用し、週次で手動切替)
  2. Interleaved/Vertex 併用環境は DISABLE_INTERLEAVED_THINKING=1 を既定化し衝突を排除。
  3. Sub-Agent を使う場合、permissions(allowed/disallowed)を明示し、--verbose で tool 呼び出しを常時トレース。
  4. 8/28 の週次上限に備え、トークン使用量のダッシュボード化+アラート閾値を設定。

既知の重要チケット(更新)

  • #4772 Paste 後に CLI が固まる → Closed(修正確認)。
  • #4951 Context-Limit 400(圧縮が効かず全コマンド失敗)→ Open(議論継続)。
  • #4517 /compact 実行で CLAUDE.md 前提が失われる → Open。
  • #4706 / #4626 1.0.62 の Sub-Agent 認識不良(Windows比重高) → 重複含め改善報告。
  • allowedTools 系:-p(非対話)時のパターン未反映など仕様/実装差の指摘が継続。

週次レートリミット(再掲)

  • 適用開始:2025-08-28(Pro/Max 対象、影響は <5% 見込み)。既存の 5 時間ローリングは維持。

付録:公式ドキュメントの要点リンク

  • Claude Code リリースノート(Hooks / MCP 追加など):6/30, 6/18 記載。
  • Sub-Agents(/agents)公式ドキュメント。
  • CLI リファレンス(allowed/disallowed、dangerously-skip-permissions など)。
  • 最新バージョン確認(npm)。

🔀 バージョン選択の使い分け(1.0.24 ↔ 1.0.59)

観点 1.0.24 1.0.59
安定性 機能が最小限で回帰バグが少ない。複数日連続ジョブでもハング報告なし。 7 月リリースラッシュを乗り切った"最後の安定帯"。コミュニティでピン止め推奨。
機能 Plan Mode / Hooks / MCP HTTP なし Plan Mode 高速化、Hooks、MCP 正式対応で"普段使い"に十分な機能セット
Sub-Agent 実装前のため影響ゼロ 1.0.60 から導入のため バグ対象外(安心して無効化運用可)
トークン効率 Interleaved Thinking が存在せず消費少 Interleaved Thinking を DISABLE_INTERLEAVED_THINKING=1 で抑制可
将来性 旧 UI・旧 API のまま。近い将来 deprecated の懸念 設定レイアウトが 1.0.6x 系と近く、将来移行テストに最適

✅ どう選ぶ?

  • "機能より鉄壁の安定"1.0.24
    CI/CD まだ組まない & セキュリティ審査が厳しい場合に最適。

  • "最新機能は使いたいが Sub-Agent バグは踏みたくない"1.0.59
    Plan Mode & Hooks を使いながら、1.0.6x 系の回帰も回避。

  • 運用 TIP(両バージョン共通)

    # バージョン固定
    npm i -g @anthropic-ai/claude-code@<ver>
    export CLAUDE_CODE_AUTO_UPDATE=false
    
    # Interleaved Thinking を無効化(1.0.59 のみ)
    export DISABLE_INTERLEAVED_THINKING=1
    

今後のウォッチポイント

  1. npm 1.0.68+ が出た際の CHANGELOG 出力の有無(改善宣言があるか)
  2. Pull Request の "context-compression-refactor" ブランチ登場
  3. Issue #4740 のアサイン動き(セキュリティ系ラベルのまま放置だと Enterprise 導入に影響)
  4. docs.anthropic.com Release Notes欄の更新頻度

Discussion

和守和守

この記事がいうには固定先は1.0.24のほうが良いようですが、この見解に対して意見はありますでしょうか?

furufurufurufuru

コメントありがとうございます。
間接的に影響が出るものはわからないのですが、直接的に影響が出るようなコンテクスト圧縮に関するPRはv1.0.24からv.1.0.59までのアップデートに拝見されないようなので、本当にこれが課題かは判断しきるのが難しいです。個人的な想定では、サブエージェントやPlan機能によって自由度が増加し、LLMの介入ノイズが増加したことで、コンテクスト精度が落ちているのではないか。と予想しているので、それであれば、Plan Mode OFFにした上でCLAUDE.mdを丁寧に記載していれば、(少なくとも自分の環境では)精度が落ちたという感覚はv.1.0.59であまりないです。

ただし、CLAUDE.mdのチューニングなどされていない初期環境ではv.1.0.59でも(自由度の増加による)精度低下はあるかもしれません....!

和守和守

返信ありがとうございます。Planモード、なんかよさげに思えるんですけど、そうでもないんですね。

furufurufurufuru

機能が増えれば増えるほどLLM側の出力によるコンテクスト保持が増えるので、ユーザーの指示に従って内容に感じる感度が増えるということも考えられるので、難しいかと思いました!
ご指摘の内容追記させていただきます🙇