🧑‍💻

自律型コーディングエージェントを使って比較してみた(Devin、Codex、Jules、ClaudeCodeAction)

に公開

自律型AIコーディングエージェントとは?

自律型AIコーディングエージェントとは、ユーザーが与えた目標やタスクに対して、AIが自律的に計画・判断し、コードの生成・修正・実行までを自動で行うAIシステムです。

今回はDevin、Codex、Jules、ClaudeCodeActionを比較利用していきます。
Github Copilot Coding Agentも利用をしてみかったのですがコストの兼ね合いで今回は検証対象からはずしました。

Devinについて

Cognition Labsという会社が作っています。
2024年5月にはMicrosoftとの提携を発表し、インフラはどうやらAzureで動いているようです。
自律型AIコーディングエージェントではかなり早い登場でした。
弊社でも以前から利用をしています。
https://devin.ai/

Codexについて

こちらは皆さんおなじみOpenAIが作っています。
2025年4月にはCLI版がありましたが、codex-1codex-mini等の新しいモデルの登場と共にWebバージョンも登場して利用できるようになりました。
https://openai.com/codex/

Julesについて

Googleが2025年5月にパブリックベータとして公開しました。
現時点では無料で利用ができるようです。
https://jules.google/

ClaudeCodeActionについて

おなじみのClaudeシリーズを提供しているAnthropicが提供しているコーディングエージェントです。
Cursorのようなデスクトップ版もあるようですが今回はGithubActionsからの利用をしています。
https://docs.anthropic.com/ja/docs/claude-code/overview

コーディング能力

それぞれに同じ文章を渡してPullRequestを作ってもらいました。
コーディング能力は完全に私の感想になります。

名前 感想
Devin 以前から利用しているため Knowledgeも溜まっているというのもあり期待通りのアウトプットを得ることができました。 また自分が想定できていなかった部分も追加で修正をしてくれました。
Codex Knowledgeが全くないにもかかわらずDevinと同じアウトプットを得ることができました。 追加のやりとりは必要ありませんでした。
Jules ほぼ期待通りのアウトプットとなりましたが、余計な変更が入ってしまいました。追加でやり取りをしましたが完全に修正はできませんでした。
ClaudeCodeAction 1発で期待通りの結果とはなりませんでしたが、追加でやり取りをして期待通りの結果を得ることができました。

Devinを基準に考えると、Codexは今までの知識の積み重ねがないにもかかわらずかなり精度良くアウトプットを得ることができています。
ClaudeCodeは自分が想定していた範囲での修正に留まり、見ている範囲が他と比べて若干狭いようにもかんじました。

速度

結果を得るまでにかかったおおよその時間です。
それぞれVM起動などの作業開始までの準備時間も含めています。

名前 感想
Devin 15分〜16分(lintなどの作業時間も含まれています)
Codex 7分〜8分(思考時間は6分47秒でしたがVMが立ち上がる時間を加味)
Jules 8分〜10分
ClaudeCodeAction 12分〜15分(最初のPR作成に12分、修正に3分)

Devinが最も時間がかかっているように見えますが、lintなどの作業を含めて行っていることを考えると妥当な時間であり、Codex、Julesとは大差がないように見えます。
ClaudeCodeActionは他と比べると遅いようにも感じますが、人間は待っているだけなので3〜4分の差は大した差分ではないとも言えます。

料金

Codexは本来であればCLIで比較すべきところだと思いますが、今回はWebから利用をしたのでCodexを利用できる最低のTeamプランの料金を書かせていただきました。

名前 感想
Devin 3.14ドル、448円(1.57ACUs消費、1ACUは2ドル)
Codex 4,500円〜(Teamプランから利用できるようです。)
Jules 無料(2025年6月時点)
ClaudeCodeAction 1.84ドル、262円(PR作成に1.53ドル、修正に0.31ドル)

Devinは他作業もさせている分を考慮しても他とは少々値段が高いという結果になりました。
Codexは4,500円〜使い放題ですが、ChatGPTも利用できることを考えるとコスパはよさそうに見えます。
ClaudeCodeもMAXプラン(月額100ドル)を利用すればある程度利用し放題になりますが、Action利用でも細かく命令をしていければ安く抑えることはできそうです。

使い心地

UIやUXなどを比較しています。

名前 感想
Devin Slackからも呼び出し利用することができる点は優位です。
またVMを作成してくれるためコーディング以外の調査などの作業を任せることができるのもよい点です。
Codex コーディングだけではなく質問をすることもできるのはよいです。
Webの使い心地も違和感なく使うことができます。
1やり取りをするたびに起動の待ち時間が発生するためやり取りをするのには不便です。
またセットアップコマンド以後はインターネット接続はできないためCLIを利用した調査等はできません。
Jules IMEの変換確定エンターで送信されるのが最も嫌なポイントです。
これだけで使いたい気持ちがなくなってしまいます。
ClaudeCodeAction GithubActionsから利用するためコーディング経過は他と比べて確認がしづらいです。(みやすさの問題)
また途中でやり取りが間違っていると思っても介入はしづらくはあります。
やりとりがGithub上に残る為、意図や背景が汲み取りやすいメリットはあります。

まとめ

ここまでの評価を表にまとめてみました。

名前 コーディング能力 速度 料金 使い心地
Devin △〜◯
Codex △〜◯
Jules -
ClaudeCodeAction

Devinは圧倒的な使い心地とKnowledge機能がやはり大きなメリットです。
Knowledge機能や命令をより細かくしていけばコストも抑えられるはずです。
またVMを立ち上げるのでスムーズなやり取りができる点、開発以外のタスクもこなせる点などを考えると自律型としての総合力はかなり高いです。

Codexはゼロ知識にもかかわらず、高いコーディング能力を発揮できました。
ChatGPTの料金内で使い放題なので他を利用していなければ選択肢に十分入ってきます。
セットアップせずに使ってみましたが、セットアップ後にインターネットに接続できないのは非常に残念なポイントです。

Julesは現状、日本語圏で使うのには大変でありこれからの進化を期待したいです。

ClaudeCodeActionは自律型としてゼロからイシューを解決させるのに加えて、人が作ったPRに対して微修正を行ったりなど補助的な役割にかなり便利そうです。
やり取りがすべてGithub上に残るためあとからキャッチアップしやすい点も大きなメリットになります。これからAIが進化していったときに変更した意図などを読み取りやすくなると考えられます。

最終的に私がおすすめする順番は以下の通りです。
Devin > Codex > ClaudeCodeAction >>>> Jules

シロク エンジニアブログ

Discussion