自律型コーディングエージェントを使って比較してみた(Devin、Codex、Jules、ClaudeCodeAction)
自律型AIコーディングエージェントとは?
自律型AIコーディングエージェントとは、ユーザーが与えた目標やタスクに対して、AIが自律的に計画・判断し、コードの生成・修正・実行までを自動で行うAIシステムです。
今回はDevin、Codex、Jules、ClaudeCodeActionを比較利用していきます。
Github Copilot Coding Agentも利用をしてみかったのですがコストの兼ね合いで今回は検証対象からはずしました。
Devinについて
Cognition Labsという会社が作っています。
2024年5月にはMicrosoftとの提携を発表し、インフラはどうやらAzureで動いているようです。
自律型AIコーディングエージェントではかなり早い登場でした。
弊社でも以前から利用をしています。
Codexについて
こちらは皆さんおなじみOpenAIが作っています。
2025年4月にはCLI版がありましたが、codex-1
、codex-mini
等の新しいモデルの登場と共にWebバージョンも登場して利用できるようになりました。
Julesについて
Googleが2025年5月にパブリックベータとして公開しました。
現時点では無料で利用ができるようです。
ClaudeCodeActionについて
おなじみのClaudeシリーズを提供しているAnthropicが提供しているコーディングエージェントです。
Cursorのようなデスクトップ版もあるようですが今回はGithubActionsからの利用をしています。
コーディング能力
それぞれに同じ文章を渡してPullRequestを作ってもらいました。
コーディング能力は完全に私の感想になります。
名前 | 感想 |
---|---|
Devin | 以前から利用しているため Knowledgeも溜まっているというのもあり期待通りのアウトプットを得ることができました。 また自分が想定できていなかった部分も追加で修正をしてくれました。 |
Codex | Knowledgeが全くないにもかかわらずDevinと同じアウトプットを得ることができました。 追加のやりとりは必要ありませんでした。 |
Jules | ほぼ期待通りのアウトプットとなりましたが、余計な変更が入ってしまいました。追加でやり取りをしましたが完全に修正はできませんでした。 |
ClaudeCodeAction | 1発で期待通りの結果とはなりませんでしたが、追加でやり取りをして期待通りの結果を得ることができました。 |
Devinを基準に考えると、Codexは今までの知識の積み重ねがないにもかかわらずかなり精度良くアウトプットを得ることができています。
ClaudeCodeは自分が想定していた範囲での修正に留まり、見ている範囲が他と比べて若干狭いようにもかんじました。
速度
結果を得るまでにかかったおおよその時間です。
それぞれVM起動などの作業開始までの準備時間も含めています。
名前 | 感想 |
---|---|
Devin | 15分〜16分(lintなどの作業時間も含まれています) |
Codex | 7分〜8分(思考時間は6分47秒でしたがVMが立ち上がる時間を加味) |
Jules | 8分〜10分 |
ClaudeCodeAction | 12分〜15分(最初のPR作成に12分、修正に3分) |
Devinが最も時間がかかっているように見えますが、lintなどの作業を含めて行っていることを考えると妥当な時間であり、Codex、Julesとは大差がないように見えます。
ClaudeCodeActionは他と比べると遅いようにも感じますが、人間は待っているだけなので3〜4分の差は大した差分ではないとも言えます。
料金
Codexは本来であればCLIで比較すべきところだと思いますが、今回はWebから利用をしたのでCodexを利用できる最低のTeamプランの料金を書かせていただきました。
名前 | 感想 |
---|---|
Devin | 3.14ドル、448円(1.57ACUs消費、1ACUは2ドル) |
Codex | 4,500円〜(Teamプランから利用できるようです。) |
Jules | 無料(2025年6月時点) |
ClaudeCodeAction | 1.84ドル、262円(PR作成に1.53ドル、修正に0.31ドル) |
Devinは他作業もさせている分を考慮しても他とは少々値段が高いという結果になりました。
Codexは4,500円〜使い放題ですが、ChatGPTも利用できることを考えるとコスパはよさそうに見えます。
ClaudeCodeもMAXプラン(月額100ドル)を利用すればある程度利用し放題になりますが、Action利用でも細かく命令をしていければ安く抑えることはできそうです。
使い心地
UIやUXなどを比較しています。
名前 | 感想 |
---|---|
Devin |
Slackからも呼び出し利用することができる点は優位です。 またVMを作成してくれるためコーディング以外の調査などの作業を任せることができるのもよい点です。 |
Codex | コーディングだけではなく質問をすることもできるのはよいです。 Webの使い心地も違和感なく使うことができます。 1やり取りをするたびに起動の待ち時間が発生するためやり取りをするのには不便です。 またセットアップコマンド以後はインターネット接続はできないためCLIを利用した調査等はできません。 |
Jules |
IMEの変換確定エンターで送信されるのが最も嫌なポイントです。 これだけで使いたい気持ちがなくなってしまいます。 |
ClaudeCodeAction | GithubActionsから利用するためコーディング経過は他と比べて確認がしづらいです。(みやすさの問題) また途中でやり取りが間違っていると思っても介入はしづらくはあります。 やりとりがGithub上に残る為、意図や背景が汲み取りやすいメリットはあります。 |
まとめ
ここまでの評価を表にまとめてみました。
名前 | コーディング能力 | 速度 | 料金 | 使い心地 |
---|---|---|---|---|
Devin | ◎ | △〜◯ | △ | ◎ |
Codex | ◎ | ◯ | △〜◯ | ◯ |
Jules | △ | ◯ | - | ✕ |
ClaudeCodeAction | ◯ | △ | ◎ | △ |
Devinは圧倒的な使い心地とKnowledge機能がやはり大きなメリットです。
Knowledge機能や命令をより細かくしていけばコストも抑えられるはずです。
またVMを立ち上げるのでスムーズなやり取りができる点、開発以外のタスクもこなせる点などを考えると自律型としての総合力はかなり高いです。
Codexはゼロ知識にもかかわらず、高いコーディング能力を発揮できました。
ChatGPTの料金内で使い放題なので他を利用していなければ選択肢に十分入ってきます。
セットアップせずに使ってみましたが、セットアップ後にインターネットに接続できないのは非常に残念なポイントです。
Julesは現状、日本語圏で使うのには大変でありこれからの進化を期待したいです。
ClaudeCodeActionは自律型としてゼロからイシューを解決させるのに加えて、人が作ったPRに対して微修正を行ったりなど補助的な役割にかなり便利そうです。
やり取りがすべてGithub上に残るためあとからキャッチアップしやすい点も大きなメリットになります。これからAIが進化していったときに変更した意図などを読み取りやすくなると考えられます。
最終的に私がおすすめする順番は以下の通りです。
Devin > Codex > ClaudeCodeAction >>>> Jules

「N organic」、「FAS」等の化粧品ブランドを展開している株式会社シロクのエンジニアブログです。 ECサイトを中心とした自社サービスの開発・運用を行っています。 sirok.jp/norganic
Discussion