🧠

自分用 LLMコーディングエージェント ノウハウまとめ 2025年10月版

に公開

■ はじめに

  • 色々情報拾ったり使ってみたりでなんとなく上手く使えてきたので現時点のノウハウをまとめる
  • CLIで利用できるツールに関して主に取り扱う
    • issueやPRでの運用は反復コストが思ったより大きくてあまりしていない
  • LLMそのものの仕組みには特に触れず、ツールとしての使い方にフォーカスしている

ちなみにダラダラ書いたのでやたらと長くて字が多いです。

■ (投稿者の) 環境と前提

  • ChatGPT Pro プランを契約している
    • ChatGPTに限らずほぼプラン課金で生成AIを利用しており、API従量課金は利用していない
  • Codex CLI を主なコーディングエージェントとして利用している
    • 今回は主にCodex向けの内容となってしまうが、他エージェントでも共通して利用できるノウハウは多いはず
    • 他のコーディングエージェントもたまに課金切り替えて使ったりしていたが、GPT-5以降はほぼCodexのみ
  • WindowsマシンでWSL2を用いてUbuntuを導入し、Ubuntu内にCodex CLIをインストールして利用している
  • エディタは Cursor を主に利用し、Codex拡張を導入して利用
    • 課金はしたりしなかったり
  • 仕事の一部と趣味・個人開発で利用、AIに全振りしたワークフローとかではない

■ 課金のススメ

主要プラットフォーム

(投稿者が勝手に考えた) 主要コーディングエージェント内包プラットフォームのみ挙げる。
詳細な比較は都度検索して最新情報を見ることを推奨。また、学習データ利用や諸々のトラブルに対する保証に関しての条項も同様。

  • ChatGPT (OpenAI)
    • 新機能、新ツール、新基盤のリリースに意欲的で、LLMを用いた開発シーンを牽引しているという印象
    • 競合と比べて早期にモデルが世代交代するため、性能的に首位である期間が短い…か?
      • GPT-5 以降は性能面でも申し分なく、特にエージェント性能が高いと思われる
    • Codexは執筆時点でMCP後発で、一部MCPは未対応だったりする
    • Plus $20の次が Pro $200なのが難しいところ…
    • コーディングエージェントだけでなく色々な新機能へ早期にアクセスできるため、投稿者はしばらくこのまま課金するつもり
  • Claude (Anthropic)
    • モデル問わずコーディング性能は高め、エージェント性能は gpt-5-codex ほどではない…らしい
      • ただ Claude Code のサブエージェントを上手く使えば色々うまくやれそうな感
    • MCPを提唱したAnthropicの御膝下のため、MCPツールのサポートは期待できるか
      • 最近 Claude Skills (後述) なんてものも発表された
    • Max 5x $100 があるため、段階的にヘビーなプランを試せる
  • Gemini (Google)
    • いかんせん母体の持つデータ量が他と比較して圧倒的に多いはずなので、最新の内容を含む出力精度には期待が持てる (あまり恩恵は感じたことが無いが…)
    • Googleアカウントでログインするだけで1日1000リクエストまで無料で利用できる
      • Gemini Code Assist によるIDE統合での入力補完なんかもついてくる
      • ただし入力内容は学習に利用されるため注意
    • 開発ツールではないが、 NotebookLM はナレッジベース/学習支援ツールとして非常にUXが良いと感じている
    • とりあえず無料で試すには良さそう
  • Cursor (Anysphere)
    • AI統合IDEだが、エージェント機能および Cursor CLI も提供している
    • Cursor 自体のコーディング体験が非常に優れている印象で、エージェンティックコーディングに限らず、手でガリガリ書くのにも便利
      • 何故か GitHub Copilotでの補完より良いカンジに補完される気がする
    • 元々エージェンティックコーディングを最初に流行らせたのは Cursor という認識、純粋にコードを生み出すという点では機能面含めて優秀な印象
    • Web系は特にBrowser (computer use) 機能で実際のアプリケーションを触らせてデバッグするのが手軽で非常に便利
  • GitHub Copilot (GitHub / Microsoft)
    • IDE統合でのコード補完が主であったが、現在では Agent Mode 他、コーディングエージェント系も展開している
    • VSCodeからの導入・アクセスが容易なため、VSCodeユーザーがとりあえずなんでも良いから使ってみたい、ということであれば第一候補か
    • コーディング支援系が流行り始めたころに契約していたが、Cursorの方が妙に開発体験が良かったため以降利用しておらず、現状の使用感を知らない…

他にも

  • Devin
  • Cline
  • WindSurf
  • Kiro

…と色々世に出ているが、全然キャッチアップが追いついておらず使用感など不明なので割愛。

なおコーディングエージェントを運用する上では、基本的にはAPI従量課金ではなく定額プランを契約して利用する方が良い。はず。
コードベースのトークン量はチャットの比ではないはずなので、API利用だとかなりの額になってしまう可能性アリ。

ChatGPT プラン比較

普段 ChatGPT を利用しているため、Codexレートリミットなどの使用感をまとめる。
各社価格感は横並びなため、おそらく Claude 等でも似たような感じだと思われる。

  • Free: 無料
    • Codex 利用不可
  • Plus: $20/月
    • Codex をフルタイム 8h/日 で利用すると、2.5日弱で週次制限に引っかかった
      • 小さくない規模のアプリケーションでフレームワーク間の全移植、という抽象度の割と高いタスクをほぼ丸投げしていたため、トークン/コンテキスト消費が大きかったと思われる
      • 週末丸2日間の個人開発に利用する、くらいなら大丈夫そう
    • ChatGPT の利用では特にストレスなどは無し
      • DeepResearch の月次制限は低めでちょこちょこ引っかかっていたため、 Codex だけでなく他機能もフル活用したいのであれば足りないかも
  • Pro: $200/月
    • 高い!なんでいきなり10倍…
    • DeepResearch とエージェントモードの利用上限が爆増
    • ChatGPT Pulse のような新機能のアーリーアクセスにも参加できる
      • ちなみに ChatGPT Pulse 自体はまああってもなくても…といった感じだが、自分好みの最新情報やハウツーでへぇ~と思わせられることも結構あり、面白くはある
    • Codex に利用されているモデルはPlusと変わらないため、性能は変わらない模様
    • Codex の利用上限はほぼ無制限になる
      • スクリプト実行 (具体的に何を指しているか不明) でもしない限り、上限には到達しないらしい
        • 実際引っかかったことも引っかかる気配もない
      • 参考: 中の人情報

https://x.com/embirico/status/1960818158815862860

  • Business: $30/月 or 年額課金だと $25/月 ($300/年)
    • 機能やモデルへのフルアクセス (Proと同等)
    • 上記に加えて、諸々のチーム管理機能や共有プロジェクトなどが利用可能
    • 利用したことがないため実際のところは不明だが、 Codex のレートリミットは残念ながらPlusと同等なはず
    • なお最低購入シート数が2人からとなっている
  • Enterprise / Edu
    • 企業/教育機関向け、導入には問い合わせが必要のため詳細不明

投稿者はPlusで作業中、 次に使えるのは 4日後 みたいな旨の絶望的なメッセージが出たので、色々迷ったがPro課金へ。 憧れは止められねぇんだ
上限を気にせずストレスフリーに利用できるので、思い切ってProにして良かったなという感じ。
ただいかんせんお値段が覚悟完了し過ぎているため、忙しい時期を超えたらPlusにして様子を見る予定。

■ 各種ノウハウ

ここから、雑多に「こうしたら上手くいった」事例を挙げる。

プロンプティングで使用する言語

  • 別に日本語で困ったことはない
    • 学習量やパフォーマンス評価手法でのバイアス的に、英語などの方が良いだろうとは思うが…
  • 回答のみ日本語、情報の検索や推論時は英語で、などプロンプトで工夫すれば
    精度的には問題なさそう
    • もちろんコンテキスト・トークン量では不利
  • 最適な言語は分野によると思われるので適宜

AGENTS.md (とか CLAUDE.md とか) はとりあえず作成する

  • 何はともあれまず作成しておく
    • AGENTS.md 自体の作成をエージェントに指示すれば適切にスキャフォールディングしてくれる
  • プロジェクトやアプリケーションの概要・目的なども重要で、とりあえず書いておけばそれに沿って開発してくれる
  • 試して感触が良かったいい感じのプロンプトなどあれば、適宜ここに追記して後続に反映できるようにすればどんどん改善していける

MCP利用について

  • Serena MCP (後述) など、普段から勝手に利用して欲しいMCPは AGENTS.md にその旨を記述しておくこと
    • 投稿者の環境では、そうしないと暗黙的には利用してくれなかったため
  • 利用時に都度指示するもの ( Chrome DevTools MCP とか?) はわざわざ書かなくても良い

Web検索をオンにする

  • ドキュメント等の最新情報に触りにいけるので是非オンで利用したい

  • 執筆時点では主要なコーディングエージェントでは大体利用可能になっている

  • 例えばCodexではデフォルトでオフ、 config.toml に以下の設定をすることで利用可能

    [tools]
    web_search = true
    

model_reasoning_effort について ( Codex )

  • gpt-5-codex モデルを利用しているならほぼ medium 一択
    • gpt-5-codex では指示内容によって推論レベルを自動で調整してくれるが、 medium が最もその恩恵を享受できる

https://x.com/embirico/status/1967655551762075861

  • 本当に?と思ったので2週間ほど high で利用し、その後 medium に変更して利用しているが、
    大きいタスクでは大差なく、小さいタスクはより適切かつ迅速に結果を出してくれている…気がする
    • なんにせよとりあえず medium にしておけば大抵のユースケースにはマッチするはず

Serena MCP を利用する

https://github.com/oraios/serena

  • 導入方法は割愛
  • セマンティック検索・編集機能を提供するMCP
  • コードベースのindexingを行うため、エージェントがより効率良く必要なコードにたどり着ける/編集できるようになり、コンテキストの節約ができる
    • 逆に、素の状態だと片っ端からファイルを読んだりしてトークン消費がすごいはず
  • また、文脈の保存をする機能もアリ
    • これは別に何か特別な仕組みがあるわけではないため、プロンプトの仕組みで自力でやろうと思えばできる
  • 先述の通り、 利用する場合は AGENTS.md に明示的に利用するよう書いておいた方が良い

タスクを分解する

  • コンテキストウィンドウの上限がエージェント性能 (コード理解と推論・出力精度) の限界
    • 抽象度が高いタスクで精度が落ちるのは、推定されるコンテキストが膨大になり、ユーザーの望む出力の確率が相対的に下がる & 上限に引っかかって推定不可能になるから…か?
    • とにかく後述の諸々などで、一度に利用されるコンテキストをコンパクトにすることで望んだ出力にたどり着ける
  • 先述のような 『このアプリケーションを機能そのまま別FWに移植して』 といったような作業内容では、まず完遂できない
  • 『最終目的ほげほげのために、まず作業大項目Aが必要で、そのために作業小項目A-1ほげほげを実行してください』 的なブレイクダウンが必須
    • 後述するが、このブレイクダウンとリストアップ自体をAIにやらせるのも有効
  • 人間みたい

実ファイルに作業内容を書き出させる

  • 作業内容の決定から実行を1プロンプトでやらせると、コンテキストを食い過ぎて精度が落ちる
  • 適当な tmp/ ディレクトリなどに、テキストファイルで一度作業内容を書き出させ、それに沿って実行させることで精度が上がる
    • 新規の会話で実行させた方がコンテキスト上限がリセットされて良いのかも
  • 恐らく Kiro などSDD系エージェントツールのワークフローも近いやり方?
  • OpenAI DevDay 2025 でもこういったフローが紹介されていた

https://youtu.be/Gr41tYOzE20?si=5rIZeT499hZGudKa&t=769

作業内容をある程度の大きさでナンバリングし順に実行させる

  • 先述の通り作業内容を書き出させたら、さらにそれをほどほどの大きさに分けさせて番号を振る
  • これを順に実行させることで、1プロンプトで消費するコンテキストを抑え、精度が上がるのではないか…という試み
    • 実際精度は上がったように感じるが、コンテキスト節約のおかげなのか、単純にブレイクダウンされて抽象度が下がったからなのかは不明 (両方か)
  • 投稿者がイメージしていたのはファイルダウンロードのレジューム機能
  • ただし、エージェントの面倒を見る頻度と回数が上がる

利用していないMCPは削除する

  • 導入済みMCPツールは、エージェントに常に定義を公開しているっぽい
  • 利用していないMCPは削除することで、コンテキストを節約できる
  • 以下の記事で詳しく調査されていて分かりやすいので参照のこと

https://zenn.dev/medley/articles/optimizing-claude-code-context-with-mcp-tool-audit

Cursor Browser (もしくは Chrome DevTools MCP) を利用する

  • ブラウザのレンダリング状況、および開発者ツールへアクセス可能な機能/MCP
  • フロント側の不具合やスタイルの修整が容易になる
  • ある程度ユーザー操作の模倣もできるはずなので、 Playwright Agents 程では無いにしろE2Eに近い観点で利用できるのでは?
    • なお Playwright Agents は絶対便利だろうと思いつつまだ試せていない…
  • Chrome DevTools MCP はWSL2環境だとどうもうまく導入できず、
    Cursor Browser が利用できるならそちらの方が圧倒的に手軽
    • Windows / Mac OS に直接エージェントが入っているならどちらでも良さそう?
    • なお Cursor を使う必要こそあるが、無料の範囲でも多少は動かせる

Docker MCP Toolkit を利用する

  • 署名済みDockerイメージで配布されているMCPサーバー群
  • MCPツールは割と uvxnpx で直接パッケージを取ってきている印象で、リポジトリ汚染されてたら怖いな…と思っていた
  • Docker MCP Toolkit で配布済みのものであれば、ここから使った方がローカルもさほど汚さないし、セキュリティ的にも多少は安心
  • ただ、使いたいものが必ずカタログに入っているとは限らないため注意
    • どういうペースで追加されていくのかも読めない

とりあえずはこのあたりを意識すれば、エージェントは開発の心強い味方になってくれる…はず。

Claude Skills について

まだリリースされたばかりだが、かなり重要そうに思えるため多少触れる。

https://www.anthropic.com/news/skills

  • Markdownによる概要 (最小限のシステムプロンプト) とスクリプト等からなるパッケージ
  • よく「MCPと似ている」とされるが、ツール定義を公開し続けるMCPに比べ、Skillsはコンテキスト占有率が小さく済む
  • Skillsはあくまで「ナレッジをエージェントに提供する仕組み」なのに対して、MCPは「エージェントと外部サービスのインターフェース/プロトコル」というところで使い分けがされる…のか?

https://support.claude.com/en/articles/12512176-what-are-skills

  • そもそもMCPを含むパッケージの実行可能な配布手段とかもうちょっと拡充されるだろうな~と思っていたが、早くもMCPに代わって流行りそうなものがお出しされてしまった…
    • しかもAnthropicから出るんかい!
    • そして1社から出たということは、競合も追いかけてくるはず

今後、ツール類の提供手段としてメジャーになる気がするので要注目。

■ まとめ

  • とにかく1回のコンテキストを節約すれば良い感じ
  • 全投げでやれる時代はまだ来ない…
    • とはいえ流石に全部手書きするよりは圧倒的に早いし負荷が低い…はず

以上、良きエージェンティックコーディングライフを!

Discussion