🧑‍💻

自律型コーディングエージェントを使って比較してみた（Devin、Codex、Jules、ClaudeCodeAction）

Takumi Sato

2025/06/03に公開

 自律型AIコーディングエージェントとは？自律型AIコーディングエージェントとは、ユーザーが与えた目標やタスクに対して、AIが自律的に計画・判断し、コードの生成・修正・実行までを自動で行うAIシステムです。
今回はDevin、Codex、Jules、ClaudeCodeActionを比較利用していきます。

Github Copilot Coding Agentも利用をしてみかったのですがコストの兼ね合いで今回は検証対象からはずしました。

 DevinについてCognition Labsという会社が作っています。

2024年5月にはMicrosoftとの提携を発表し、インフラはどうやらAzureで動いているようです。

自律型AIコーディングエージェントではかなり早い登場でした。

弊社でも以前から利用をしています。

https://devin.ai/

 Codexについてこちらは皆さんおなじみOpenAIが作っています。

2025年4月にはCLI版がありましたが、codex-1、codex-mini等の新しいモデルの登場と共にWebバージョンも登場して利用できるようになりました。

https://openai.com/codex/

 JulesについてGoogleが2025年5月にパブリックベータとして公開しました。

現時点では無料で利用ができるようです。

https://jules.google/

 ClaudeCodeActionについておなじみのClaudeシリーズを提供しているAnthropicが提供しているコーディングエージェントです。

Cursorのようなデスクトップ版もあるようですが今回はGithubActionsからの利用をしています。

https://docs.anthropic.com/ja/docs/claude-code/overview

 コーディング能力それぞれに同じ文章を渡してPullRequestを作ってもらいました。

コーディング能力は完全に私の感想になります。

名前
感想

Devin
以前から利用しているため Knowledgeも溜まっているというのもあり期待通りのアウトプットを得ることができました。 また自分が想定できていなかった部分も追加で修正をしてくれました。

Codex

Knowledgeが全くないにもかかわらずDevinと同じアウトプットを得ることができました。 追加のやりとりは必要ありませんでした。

Jules
ほぼ期待通りのアウトプットとなりましたが、余計な変更が入ってしまいました。追加でやり取りをしましたが完全に修正はできませんでした。

ClaudeCodeAction
1発で期待通りの結果とはなりませんでしたが、追加でやり取りをして期待通りの結果を得ることができました。

Devinを基準に考えると、Codexは今までの知識の積み重ねがないにもかかわらずかなり精度良くアウトプットを得ることができています。

ClaudeCodeは自分が想定していた範囲での修正に留まり、見ている範囲が他と比べて若干狭いようにもかんじました。

 速度結果を得るまでにかかったおおよその時間です。

それぞれVM起動などの作業開始までの準備時間も含めています。

名前
感想

Devin
15分〜16分（lintなどの作業時間も含まれています）

Codex
7分〜8分（思考時間は6分47秒でしたがVMが立ち上がる時間を加味）

Jules
8分〜10分

ClaudeCodeAction
12分〜15分（最初のPR作成に12分、修正に3分）

Devinが最も時間がかかっているように見えますが、lintなどの作業を含めて行っていることを考えると妥当な時間であり、Codex、Julesとは大差がないように見えます。

ClaudeCodeActionは他と比べると遅いようにも感じますが、人間は待っているだけなので3〜4分の差は大した差分ではないとも言えます。

 料金Codexは本来であればCLIで比較すべきところだと思いますが、今回はWebから利用をしたのでCodexを利用できる最低のTeamプランの料金を書かせていただきました。

名前
感想

Devin
3.14ドル、448円（1.57ACUs消費、1ACUは2ドル）

Codex
4,500円〜（Teamプランから利用できるようです。）

Jules
無料（2025年6月時点）

ClaudeCodeAction
1.84ドル、262円（PR作成に1.53ドル、修正に0.31ドル）

Devinは他作業もさせている分を考慮しても他とは少々値段が高いという結果になりました。

Codexは4,500円〜使い放題ですが、ChatGPTも利用できることを考えるとコスパはよさそうに見えます。

ClaudeCodeもMAXプラン（月額100ドル）を利用すればある程度利用し放題になりますが、Action利用でも細かく命令をしていければ安く抑えることはできそうです。

 使い心地UIやUXなどを比較しています。

名前
感想

Devin

Slackからも呼び出し利用することができる点は優位です。
またVMを作成してくれるためコーディング以外の調査などの作業を任せることができるのもよい点です。

Codex
コーディングだけではなく質問をすることもできるのはよいです。
Webの使い心地も違和感なく使うことができます。
1やり取りをするたびに起動の待ち時間が発生するためやり取りをするのには不便です。
またセットアップコマンド以後はインターネット接続はできないためCLIを利用した調査等はできません。

Jules

IMEの変換確定エンターで送信されるのが最も嫌なポイントです。 
これだけで使いたい気持ちがなくなってしまいます。

ClaudeCodeAction
GithubActionsから利用するためコーディング経過は他と比べて確認がしづらいです。（みやすさの問題）
また途中でやり取りが間違っていると思っても介入はしづらくはあります。
やりとりがGithub上に残る為、意図や背景が汲み取りやすいメリットはあります。

 まとめここまでの評価を表にまとめてみました。

名前
コーディング能力
速度
料金
使い心地

Devin
◎
△〜◯
△
◎

Codex
◎
◯
△〜◯
◯

Jules
△
◯
-
✕

ClaudeCodeAction
◯
△
◎
△

Devinは圧倒的な使い心地とKnowledge機能がやはり大きなメリットです。

Knowledge機能や命令をより細かくしていけばコストも抑えられるはずです。

またVMを立ち上げるのでスムーズなやり取りができる点、開発以外のタスクもこなせる点などを考えると自律型としての総合力はかなり高いです。
Codexはゼロ知識にもかかわらず、高いコーディング能力を発揮できました。

ChatGPTの料金内で使い放題なので他を利用していなければ選択肢に十分入ってきます。

セットアップせずに使ってみましたが、セットアップ後にインターネットに接続できないのは非常に残念なポイントです。
Julesは現状、日本語圏で使うのには大変でありこれからの進化を期待したいです。
ClaudeCodeActionは自律型としてゼロからイシューを解決させるのに加えて、人が作ったPRに対して微修正を行ったりなど補助的な役割にかなり便利そうです。

やり取りがすべてGithub上に残るためあとからキャッチアップしやすい点も大きなメリットになります。これからAIが進化していったときに変更した意図などを読み取りやすくなると考えられます。
最終的に私がおすすめする順番は以下の通りです。

Devin > Codex > ClaudeCodeAction >>>> Jules

名前	感想
Devin	以前から利用しているため Knowledgeも溜まっているというのもあり期待通りのアウトプットを得ることができました。また自分が想定できていなかった部分も追加で修正をしてくれました。
Codex	Knowledgeが全くないにもかかわらずDevinと同じアウトプットを得ることができました。追加のやりとりは必要ありませんでした。
Jules	ほぼ期待通りのアウトプットとなりましたが、余計な変更が入ってしまいました。追加でやり取りをしましたが完全に修正はできませんでした。
ClaudeCodeAction	1発で期待通りの結果とはなりませんでしたが、追加でやり取りをして期待通りの結果を得ることができました。

名前	感想
Devin	15分〜16分（lintなどの作業時間も含まれています）
Codex	7分〜8分（思考時間は6分47秒でしたがVMが立ち上がる時間を加味）
Jules	8分〜10分
ClaudeCodeAction	12分〜15分（最初のPR作成に12分、修正に3分）

名前	感想
Devin	3.14ドル、448円（1.57ACUs消費、1ACUは2ドル）
Codex	4,500円〜（Teamプランから利用できるようです。）
Jules	無料（2025年6月時点）
ClaudeCodeAction	1.84ドル、262円（PR作成に1.53ドル、修正に0.31ドル）

名前	感想
Devin	Slackからも呼び出し利用することができる点は優位です。またVMを作成してくれるためコーディング以外の調査などの作業を任せることができるのもよい点です。
Codex	コーディングだけではなく質問をすることもできるのはよいです。 Webの使い心地も違和感なく使うことができます。 1やり取りをするたびに起動の待ち時間が発生するためやり取りをするのには不便です。またセットアップコマンド以後はインターネット接続はできないためCLIを利用した調査等はできません。
Jules	IMEの変換確定エンターで送信されるのが最も嫌なポイントです。これだけで使いたい気持ちがなくなってしまいます。
ClaudeCodeAction	GithubActionsから利用するためコーディング経過は他と比べて確認がしづらいです。（みやすさの問題）また途中でやり取りが間違っていると思っても介入はしづらくはあります。やりとりがGithub上に残る為、意図や背景が汲み取りやすいメリットはあります。

名前	コーディング能力	速度	料金	使い心地
Devin	◎	△〜◯	△	◎
Codex	◎	◯	△〜◯	◯
Jules	△	◯	-	✕
ClaudeCodeAction	◯	△	◎	△

シロクエンジニアブログPublication

「N organic」、「FAS」等の化粧品ブランドを展開している株式会社シロクのエンジニアブログです。 ECサイトを中心とした自社サービスの開発・運用を行っています。 sirok.jp/norganic

自律型AIコーディングエージェントとは？

Devinについて

Codexについて

Julesについて

ClaudeCodeActionについて

コーディング能力

速度

料金

使い心地

まとめ

Discussion