🧠
自分用 LLMコーディングエージェントノウハウまとめ 2025年10月版

2025/10/20に公開
 ■ はじめに色々情報拾ったり使ってみたりでなんとなく上手く使えてきたので現時点のノウハウをまとめる
CLIで利用できるツールに関して主に取り扱う
issueやPRでの運用は反復コストが思ったより大きくてあまりしていない

LLMそのものの仕組みには特に触れず、ツールとしての使い方にフォーカスしている
!自分なりの整理と共有用なので最新かつベストなやり方とは限らないので注意。

また、調べれば全て同等以上の内容が出てくるので、あくまで自分なりの整理と身内での共有のための文書という位置づけです。
!定量的に性能を比較して試したりはしていないため、投稿者の主観により『なんかうまくいった気がする』という方法の紹介です。
ちなみにダラダラ書いたのでやたらと長くて字が多いです。

 ■ (投稿者の) 環境と前提
ChatGPT Pro プランを契約している
ChatGPTに限らずほぼプラン課金で生成AIを利用しており、API従量課金は利用していない


Codex CLI を主なコーディングエージェントとして利用している
今回は主にCodex向けの内容となってしまうが、他エージェントでも共通して利用できるノウハウは多いはず
他のコーディングエージェントもたまに課金切り替えて使ったりしていたが、GPT-5以降はほぼCodexのみ

WindowsマシンでWSL2を用いてUbuntuを導入し、Ubuntu内にCodex CLIをインストールして利用している
エディタは Cursor を主に利用し、Codex拡張を導入して利用
課金はしたりしなかったり

仕事の一部と趣味・個人開発で利用、AIに全振りしたワークフローとかではない

 ■ 課金のススメ
 主要プラットフォーム(投稿者が勝手に考えた) 主要コーディングエージェント内包プラットフォームのみ挙げる。

詳細な比較は都度検索して最新情報を見ることを推奨。また、学習データ利用や諸々のトラブルに対する保証に関しての条項も同様。

ChatGPT (OpenAI)
新機能、新ツール、新基盤のリリースに意欲的で、LLMを用いた開発シーンを牽引しているという印象
競合と比べて早期にモデルが世代交代するため、性能的に首位である期間が短い…か？

GPT-5 以降は性能面でも申し分なく、特にエージェント性能が高いと思われる

Codexは執筆時点でMCP後発で、一部MCPは未対応だったりする

Plus $20の次が Pro $200なのが難しいところ…
コーディングエージェントだけでなく色々な新機能へ早期にアクセスできるため、投稿者はしばらくこのまま課金するつもり


Claude (Anthropic)
モデル問わずコーディング性能は高め、エージェント性能は gpt-5-codex ほどではない…らしい
ただ Claude Code のサブエージェントを上手く使えば色々うまくやれそうな感

MCPを提唱したAnthropicの御膝下のため、MCPツールのサポートは期待できるか
最近 Claude Skills (後述) なんてものも発表された


Max 5x $100 があるため、段階的にヘビーなプランを試せる


Gemini (Google)
いかんせん母体の持つデータ量が他と比較して圧倒的に多いはずなので、最新の内容を含む出力精度には期待が持てる (あまり恩恵は感じたことが無いが…)
Googleアカウントでログインするだけで1日1000リクエストまで無料で利用できる

Gemini Code Assist によるIDE統合での入力補完なんかもついてくる
ただし入力内容は学習に利用されるため注意

開発ツールではないが、 NotebookLM はナレッジベース/学習支援ツールとして非常にUXが良いと感じている
とりあえず無料で試すには良さそう


Cursor (Anysphere)
AI統合IDEだが、エージェント機能および Cursor CLI も提供している

Cursor 自体のコーディング体験が非常に優れている印象で、エージェンティックコーディングに限らず、手でガリガリ書くのにも便利
何故か GitHub Copilotでの補完より良いカンジに補完される気がする

元々エージェンティックコーディングを最初に流行らせたのは Cursor という認識、純粋にコードを生み出すという点では機能面含めて優秀な印象
Web系は特にBrowser (computer use) 機能で実際のアプリケーションを触らせてデバッグするのが手軽で非常に便利


GitHub Copilot (GitHub / Microsoft)
IDE統合でのコード補完が主であったが、現在では Agent Mode 他、コーディングエージェント系も展開している
VSCodeからの導入・アクセスが容易なため、VSCodeユーザーがとりあえずなんでも良いから使ってみたい、ということであれば第一候補か
コーディング支援系が流行り始めたころに契約していたが、Cursorの方が妙に開発体験が良かったため以降利用しておらず、現状の使用感を知らない…

他にも
Devin
Cline
WindSurf
Kiro
…と色々世に出ているが、全然キャッチアップが追いついておらず使用感など不明なので割愛。
なおコーディングエージェントを運用する上では、基本的にはAPI従量課金ではなく定額プランを契約して利用する方が良い。はず。

コードベースのトークン量はチャットの比ではないはずなので、API利用だとかなりの額になってしまう可能性アリ。

 ChatGPT プラン比較普段 ChatGPT を利用しているため、Codexレートリミットなどの使用感をまとめる。

各社価格感は横並びなため、おそらく Claude 等でも似たような感じだと思われる。

Free: 無料

Codex 利用不可


Plus: $20/月

Codex をフルタイム 8h/日 で利用すると、2.5日弱で週次制限に引っかかった
小さくない規模のアプリケーションでフレームワーク間の全移植、という抽象度の割と高いタスクをほぼ丸投げしていたため、トークン/コンテキスト消費が大きかったと思われる
週末丸2日間の個人開発に利用する、くらいなら大丈夫そう


ChatGPT の利用では特にストレスなどは無し

DeepResearch の月次制限は低めでちょこちょこ引っかかっていたため、 Codex だけでなく他機能もフル活用したいのであれば足りないかも



Pro: $200/月
高い！なんでいきなり10倍…

DeepResearch とエージェントモードの利用上限が爆増

ChatGPT Pulse のような新機能のアーリーアクセスにも参加できる
ちなみに ChatGPT Pulse 自体はまああってもなくても…といった感じだが、自分好みの最新情報やハウツーでへぇ～と思わせられることも結構あり、面白くはある


Codex に利用されているモデルはPlusと変わらないため、性能は変わらない模様

Codex の利用上限はほぼ無制限になる
スクリプト実行 (具体的に何を指しているか不明) でもしない限り、上限には到達しないらしい
実際引っかかったことも引っかかる気配もない

参考: 中の人情報


https://x.com/embirico/status/1960818158815862860

Business: $30/月 or 年額課金だと $25/月 ($300/年)
機能やモデルへのフルアクセス (Proと同等)
上記に加えて、諸々のチーム管理機能や共有プロジェクトなどが利用可能
利用したことがないため実際のところは不明だが、 Codex のレートリミットは残念ながらPlusと同等なはず
先述のポストにある「Team」というのがBusinessプランの前身
追加クレジットの購入で超過も可能

なお最低購入シート数が2人からとなっている


Enterprise / Edu
企業/教育機関向け、導入には問い合わせが必要のため詳細不明

投稿者はPlusで作業中、 次に使えるのは 4日後 みたいな旨の絶望的なメッセージが出たので、色々迷ったがPro課金へ。 憧れは止められねぇんだ

上限を気にせずストレスフリーに利用できるので、思い切ってProにして良かったなという感じ。

ただいかんせんお値段が覚悟完了し過ぎているため、忙しい時期を超えたらPlusにして様子を見る予定。

 ■ 各種ノウハウここから、雑多に「こうしたら上手くいった」事例を挙げる。

 プロンプティングで使用する言語
別に日本語で困ったことはない
学習量やパフォーマンス評価手法でのバイアス的に、英語などの方が良いだろうとは思うが…

回答のみ日本語、情報の検索や推論時は英語で、などプロンプトで工夫すれば
精度的には問題なさそう
もちろんコンテキスト・トークン量では不利

最適な言語は分野によると思われるので適宜

 AGENTS.md (とか CLAUDE.md とか) はとりあえず作成する何はともあれまず作成しておく

AGENTS.md 自体の作成をエージェントに指示すれば適切にスキャフォールディングしてくれる

プロジェクトやアプリケーションの概要・目的なども重要で、とりあえず書いておけばそれに沿って開発してくれる
試して感触が良かったいい感じのプロンプトなどあれば、適宜ここに追記して後続に反映できるようにすればどんどん改善していける

 MCP利用について
Serena MCP (後述) など、普段から勝手に利用して欲しいMCPは AGENTS.md にその旨を記述しておくこと
投稿者の環境では、そうしないと暗黙的には利用してくれなかったため

利用時に都度指示するもの ( Chrome DevTools MCP とか？) はわざわざ書かなくても良い

 Web検索をオンにする!プロンプトインジェクションのリスクが高まるため、そのリスクを許容できる場合のみ利用のこと！
ドキュメント等の最新情報に触りにいけるので是非オンで利用したい
執筆時点では主要なコーディングエージェントでは大体利用可能になっている
例えばCodexではデフォルトでオフ、 config.toml に以下の設定をすることで利用可能
[tools]
web_search = true
(2025/11/18 追記)
Codex CLI 0.52.0 以降は以下に変更され、元の記述は非推奨になった模様[features]
web_search_request = true

 model_reasoning_effort について ( Codex )
gpt-5-codex モデルを利用しているならほぼ medium 一択

gpt-5-codex では指示内容によって推論レベルを自動で調整してくれるが、 medium が最もその恩恵を享受できる

https://x.com/embirico/status/1967655551762075861
本当に？と思ったので2週間ほど high で利用し、その後 medium に変更して利用しているが、
大きいタスクでは大差なく、小さいタスクはより適切かつ迅速に結果を出してくれている…気がする
なんにせよとりあえず medium にしておけば大抵のユースケースにはマッチするはず


 Serena MCP を利用するhttps://github.com/oraios/serena
導入方法は割愛
セマンティック検索・編集機能を提供するMCP
コードベースのindexingを行うため、エージェントがより効率良く必要なコードにたどり着ける/編集できるようになり、コンテキストの節約ができる
逆に、素の状態だと片っ端からファイルを読んだりしてトークン消費がすごいはず

また、文脈の保存をする機能もアリ
これは別に何か特別な仕組みがあるわけではないため、プロンプトの仕組みで自力でやろうと思えばできる

先述の通り、 利用する場合は AGENTS.md に明示的に利用するよう書いておいた方が良い

 タスクを分解する
コンテキストウィンドウの上限がエージェント性能 (コード理解と推論・出力精度) の限界
抽象度が高いタスクで精度が落ちるのは、推定されるコンテキストが膨大になり、ユーザーの望む出力の確率が相対的に下がる & 上限に引っかかって推定不可能になるから…か？
とにかく後述の諸々などで、一度に利用されるコンテキストをコンパクトにすることで望んだ出力にたどり着ける

先述のような 『このアプリケーションを機能そのまま別FWに移植して』 といったような作業内容では、まず完遂できない

『最終目的ほげほげのために、まず作業大項目Aが必要で、そのために作業小項目A-1ほげほげを実行してください』 的なブレイクダウンが必須
後述するが、このブレイクダウンとリストアップ自体をAIにやらせるのも有効

人間みたい

 実ファイルに作業内容を書き出させる作業内容の決定から実行を1プロンプトでやらせると、コンテキストを食い過ぎて精度が落ちる
適当な tmp/ ディレクトリなどに、テキストファイルで一度作業内容を書き出させ、それに沿って実行させることで精度が上がる
新規の会話で実行させた方がコンテキスト上限がリセットされて良いのかも

恐らく Kiro などSDD系エージェントツールのワークフローも近いやり方？

OpenAI DevDay 2025 でもこういったフローが紹介されていた
https://youtu.be/Gr41tYOzE20?si=5rIZeT499hZGudKa&t=769

 作業内容をある程度の大きさでナンバリングし順に実行させる先述の通り作業内容を書き出させたら、さらにそれをほどほどの大きさに分けさせて番号を振る
これを順に実行させることで、1プロンプトで消費するコンテキストを抑え、精度が上がるのではないか…という試み
実際精度は上がったように感じるが、コンテキスト節約のおかげなのか、単純にブレイクダウンされて抽象度が下がったからなのかは不明 (両方か)

投稿者がイメージしていたのはファイルダウンロードのレジューム機能
ただし、エージェントの面倒を見る頻度と回数が上がる

 利用していないMCPは削除する導入済みMCPツールは、エージェントに常に定義を公開しているっぽい
利用していないMCPは削除することで、コンテキストを節約できる
以下の記事で詳しく調査されていて分かりやすいので参照のこと
https://zenn.dev/medley/articles/optimizing-claude-code-context-with-mcp-tool-audit

 Cursor Browser (もしくは Chrome DevTools MCP) を利用するブラウザのレンダリング状況、および開発者ツールへアクセス可能な機能/MCP
フロント側の不具合やスタイルの修整が容易になる
ある程度ユーザー操作の模倣もできるはずなので、 Playwright Agents 程では無いにしろE2Eに近い観点で利用できるのでは？
なお Playwright Agents は絶対便利だろうと思いつつまだ試せていない…


Chrome DevTools MCP はWSL2環境だとどうもうまく導入できず、
Cursor Browser が利用できるならそちらの方が圧倒的に手軽
Windows / Mac OS に直接エージェントが入っているならどちらでも良さそう？
なお Cursor を使う必要こそあるが、無料の範囲でも多少は動かせる


 Docker MCP Toolkit を利用する署名済みDockerイメージで配布されているMCPサーバー群
MCPツールは割と uvx や npx で直接パッケージを取ってきている印象で、コンテンツキャッシュやリポジトリが汚染されてたら怖いな…と思っていた

Docker MCP Toolkit で配布済みのものであれば、ここから使った方がローカルもさほど汚さないし、セキュリティ的にも多少は安心
ただ、使いたいものが必ずカタログに入っているとは限らないため注意
どういうペースで追加されていくのかも読めない


 ファイル操作に関するコード/スクリプト実行を禁止する(2025/10/30 追記)
Codexはファイルの読み書きにやたらとPythonやshを使いたがる
妙に承認を求められたりするため変だなと感じていたが、やはりそうらしい


ファイル操作にあたって、Pythonなどのコード実行は禁止 とプロンプトもしくは AGENTS.md に追加することで、スクリプト実行用のトークンを節約できる
なおCodex CLIなら組込のファイル操作系ツールを普通に持っているため、読めない書けないということは全くない

以下の投稿で気づけました、大感謝
https://x.com/tukiyomiiori/status/1983583019714933112

 コンテキスト消費率が上がったら新しいセッションを開始する(2025/10/30 追記)
指示を重ねていくと、コンテキストを消費する
コンテキストウィンドウ上限に近づいたら、セッションを新たに開くことで消費率をリセットし、LLMが十全に推論できるようにする
昨今は大抵コンテキストウィンドウ消費量が確認できるため、定期的に確認する
CodexのIDE拡張で言うと右下に見えている円グラフなどで確認可能


そう頻繁にリセットせずとも十分に残っていれば問題ないが、逆に一杯になったらかなり性能が落ちるはず
全体を探索するような調査タスクとかだと、かなり速く消費していくので注意
とりあえずはこのあたりを意識すれば、エージェントは開発の心強い味方になってくれる…はず。

 ■ Claude Skills についてまだリリースされたばかりだが、かなり重要そうに思えるため多少触れる。
https://www.anthropic.com/news/skills
Markdownによる概要 (最小限のシステムプロンプト) とスクリプト等からなるパッケージ
よく「MCPと似ている」とされるが、ツール定義を公開し続けるMCPに比べ、Skillsはコンテキスト占有率が小さく済む
Skillsはあくまで「ナレッジをエージェントに提供する仕組み」なのに対して、MCPは「エージェントと外部サービスのインターフェース/プロトコル」というところで使い分けがされる…のか？
https://support.claude.com/en/articles/12512176-what-are-skills
そもそもMCPを含むパッケージの実行可能な配布手段とかもうちょっと拡充されるだろうな～と思っていたが、早くもMCPに代わって流行りそうなものがお出しされてしまった…
しかもAnthropicから出るんかい！
そして1社から出たということは、競合も追いかけてくるはず

今後、ツール類の提供手段としてメジャーになる気がするので要注目。

 ■ まとめとにかく1回のコンテキストを節約すれば良い感じ
全投げでやれる時代はまだ来ない…
とはいえ流石に全部手書きするよりは圧倒的に早いし負荷が低い…はず

以上、良きエージェンティックコーディングライフを！
自分用 LLMコーディングエージェントノウハウまとめ 2025年10月版

■ はじめに

■ (投稿者の) 環境と前提

■ 課金のススメ

主要プラットフォーム

ChatGPT プラン比較

■ 各種ノウハウ

プロンプティングで使用する言語

`AGENTS.md` (とか `CLAUDE.md` とか) はとりあえず作成する

MCP利用について

Web検索をオンにする

model_reasoning_effort について ( Codex )

Serena MCP を利用する

タスクを分解する

実ファイルに作業内容を書き出させる

作業内容をある程度の大きさでナンバリングし順に実行させる

利用していないMCPは削除する

Cursor Browser (もしくは Chrome DevTools MCP) を利用する

Docker MCP Toolkit を利用する

ファイル操作に関するコード/スクリプト実行を禁止する

コンテキスト消費率が上がったら新しいセッションを開始する

■ Claude Skills について

■ まとめ

Discussion