Open3

Devin & 類似OSS

P-HunterP-Hunter

Devinの公式ドキュメントから機能一覧を調査し、整理してお伝えします。完了次第、ご報告いたします。

Devinが提供する主な機能一覧

機能名 概要 重要な仕様・特記事項
Shell テキストベースのインターフェイスで、DevinがコンピュータのOSに直接コマンドを実行できる機能 (1)
Browser Devinが内蔵ブラウザでドキュメントを閲覧したり、自身の作成したWebアプリをテストしたり、データのダウンロード/アップロードを行える機能 (1) 必要に応じてユーザーがInteractive Browser機能を使い、ブラウジング操作を手助けすることも可能 (1)
Editor Devinがコードを書くエディタ環境。ユーザーはDevinの書くコードをリアルタイムで監視・レビューできるほか、必要に応じて編集を行うこともできる (1) VSCode拡張機能を利用することで、IDE上でDevinのコードを直接編集・実行する連携も可能 (1) (2)
Planner Devinがタスク達成のために計画した「ToDoリスト」をリアルタイムで表示する機能 (1)。このリストによりDevinが問題解決のためにどのように計画・思考しているかを把握できる (1)
Knowledge Devinが全セッションを通じて参照できるヒントや技術情報、内部ライブラリの使い方などを蓄積するナレッジベース機能 (3)。関連する知識項目は必要に応じ自動で想起され、作業に活用される (3) 各ナレッジ項目には「トリガー説明」を設定可能で、特定のキーワードや状況に応じて該当知識を呼び出せるようにしておく (3)
Secrets & Site Cookies APIキーやログイン情報などの資格情報、およびサイトのクッキーを安全に共有し、Devinが保護されたリソースにアクセスできるようにする機能 (4) (4) セッション限定の一時シークレットと、全セッションで使い回せる永続シークレットの2種類を管理可能。永続シークレットは暗号化され組織内の今後のセッションで利用できる (4)。またサイトのクッキーを保存することで、Devinがそのサイトに自動ログインすることも可能 (4)。
Interacting with Devin’s Machine Devinの仮想マシン環境に直接アクセスして操作できる機能 (2)。セッション実行中にVSCodeからDevinの開発環境に接続し、エディタでコードを閲覧・編集したりターミナルでコマンドを実行できる (2) ユーザーが手動でコード修正やコマンド実行を行った場合、その変更内容をチャットでDevinに伝え、コンテキストを更新させる必要がある (2)
Interactive Browser ユーザーがDevinのブラウザを直接操作できる機能 (5)。CAPTCHAの入力や多要素認証の承認、複雑なサイトの手動ナビゲーションなど、自動操作が難しい場面でDevinを支援できる (5)
Devin’s Work Log Devinがこれまで実行した各ステップの内容・所要時間・自己評価(A/B/C評価)を一覧表示する作業ログ機能 (6)。Plannerタブ内で各ステップをクリックすると、Devinのその時点での振り返りコメントを確認できる (6) Devinの行動履歴を可視化することで、問題発生箇所の特定や長時間タスクの振り返りが容易になる。 (6)(どの処理に時間を費やしたか等の分析に役立つ)
Repos and Snapshots セッション開始時にDevinのワークスペースへ読み込むリポジトリを管理し、環境のスナップショット(保存状態)を扱う機能 (7)。各セッションは保存されたマシン状態から開始され、デフォルトでは追加済みリポジトリ全てが含まれる (7) 複数のマシン・スナップショットを作成し、異なる保存状態を基にセッションを開始することも可能 (7)。大規模でマルチセッションなプロジェクトで、セッションごとに環境を切り替える際に有用 (7)。
VPN Configuration DevinのVMワークスペースにVPNクライアントを設定し、社内ネットワーク上のリソースへアクセス可能にする機能 (8)。内部のパッケージレジストリやステージング環境など社内限定のサービスにもDevinが接続できるようになる (8) セットアップ前に対象サービスがインターネット上に公開されていないことを確認し、サービスアカウントなど適切な認証手段を用意する必要がある (8)。認証情報はDevinのSecrets機能で安全に保存・利用可能 (8)。
Deployments Devinが開発したアプリケーションをデプロイ(リリース)する機能とその対応範囲 (9)。新規に作成した小規模アプリのデプロイは自動対応可能(フロントエンドはVite/TypeScript/Tailwindテンプレート、バックエンドはFastAPIテンプレート)だが、既存アプリのデプロイにはSecretsやKnowledgeでの追加情報提供などカスタム設定が必要 (9) 新規フロントエンドは標準テンプレート(Vite+TypeScript+Tailwind CSS+shadcn/UI)を使用する (9)。既存アプリのデプロイでは認証情報や環境設定を追加し、Devinに手順を教えることで対応可能 (9)。
Devin API Devinをプログラムから制御できる公式API (1)。REST API経由でセッションの作成や実行結果の取得が可能で、独自ツールやスクリプトからDevinを活用したり、複数のDevinセッションを並行実行するワークフローを自動化できる (1)
Playbooks 繰り返し行うタスク向けに再利用可能なプロンプトテンプレート(プレイブック)を作成・共有できる機能 (10)。特定の手順をカプセル化したカスタムシステムプロンプトとして機能し、組織内の他のメンバーもそのプレイブックを使って同様のDevinセッションを実行できる (10) プロジェクト固有のコーディング規約やベストプラクティスは通常 (3)Knowledge機能で共有し、Playbookはチームで繰り返し使う自動化手順のテンプレートとして適用するのが望ましい (10)。
Invite your Team (チームコラボレーション機能)Devinの組織にチームメンバーを招待し共同利用できる機能 (11)。招待されたMemberはセッションの開始や組織内のKnowledge/Playbook/スナップショットの閲覧・利用が可能となり、Adminはメンバー招待や組織統合設定を行える (11) 本機能はTeamプラン以上で提供 (11)。チーム外のユーザーには、セッションの読み取り専用リンクを共有することでDevinの実行内容を閲覧させることも可能(機密情報の共有には注意) (11)。
MultiDevin エンタープライズプラン限定機能で、1つの「マネージャDevin」が最大10の「ワーカーDevin」を生成しタスクを並列処理できる仕組み (12)。マネージャDevinが各ワーカーにタスクを割り振り、全ワーカーの成果を統合して単一のブランチ(PR)にマージする (12) 並列実行により作業スピードを向上し、各ワーカーには小さなタスクを割り当てるため成功率も向上する。 (12)マネージャDevinは成功した結果のみを最終PRに取り込むため、一部のワーカーが失敗しても全体としてマージ可能な成果物が得られる (12)。
Slack Integration Slackと連携し、社内のSlack上でDevinを呼び出してチャットベースで協働できる機能 (13)。Slackのスレッドで@Devinメンションするだけでセッションを開始でき、Devinは通常のWebチャットと同様に進捗報告や質問をスレッド内で行う (13) Slack連携の有効化は組織設定でSlack管理者が行う必要がある (13)。各ユーザーは自分のSlackアカウントをDevinに関連付けることで、よりパーソナライズされた操作(ユーザーごとの通知など)が可能(任意設定) (13)。
バージョン管理プラットフォーム連携
(GitHub, GitLab, Azure DevOps, Bitbucket)
GitHubやGitLabなどのリポジトリホスティングサービスと統合し、Devinが直接リポジトリに対してPull Requestの作成やレビューコメントへの応答を行える機能 (14)。コードベース上でDevinをチームの一員として参加させ、バックログ解消やコードレビュー支援を自動化できる (14) 各プラットフォームでDevinのアプリ連携を設定し、対象リポジトリへのアクセス権を付与する必要がある (14)。連携後、Devinに許可したリポジトリはDevinのWorkspace設定内に一覧表示され、必要に応じてセッション開始時に利用される (14)。

参考文献

[1] Introducing Devin - Devin Docs
[2] Interacting with Devin's Machine - Devin Docs
[3] Knowledge - Devin Docs
[4] Secrets & Site Cookies - Devin Docs
[5] Interactive Browser - Devin Docs
[6] Devin's Work Log - Devin Docs
[7] Repos and Snapshots - Devin Docs
[8] VPN Configuration - Devin Docs
[9] Deployments - Devin Docs
[10] Creating Playbooks - Devin Docs
[11] Invite your Team - Devin Docs
[12] MultiDevin - Devin Docs
[13] Slack Integration Guide - Devin Docs
[14] GitHub Integration Guide - Devin Docs

P-HunterP-Hunter

Devinの代替となるオープンソースプロジェクトを網羅的にリサーチし、その機能や特徴を整理して報告します。しばらくお待ちください。

Devin代替OSSの調査結果

以下に、Devin(Cognition AIのAIソフトウェアエンジニア)の代替となり得るオープンソースプロジェクトをまとめました。Devinが持つ主な機能(AIによるコード補助、タスクのプランニング・管理、コードの実行・テスト、仮想環境制御、シークレット管理、デプロイ、自動でのリポジトリ操作など)をカバーするオールインワン型のAI開発エージェントから、特定機能に特化したツール(AIペアプログラミング、CI/CD自動化、クラウド環境構築、シークレット管理等)まで含め、アクティブに開発が進んでいるプロジェクトを中心に一覧表にしています。各OSSについて、リポジトリURL、主な機能・特徴、およびDevinとの比較(優れている点・劣っている点)を示します。

OSS名 リポジトリURL 主な機能・特徴 Devinとの比較(優れている点 / 劣っている点)
OpenHands (旧称OpenDevin) 1 DevinのOSSクローンを目指すAIエージェント。React製のUIを備え、FastAPI+Dockerベースのバックエンドでコードを実行可能。20k以上のスターを獲得し活発に開発中 (2)。Sandbox環境でのコード実行にも対応予定 (2)。 : Devin同様に使いやすいGUIを持ち、オープンソースでコミュニティ開発が進行中。自由に拡張やカスタムが可能。
: Cognition社のDevin本体と比べると実行性能や対応機能で発展途中であり、完全な機能再現には至っていない。
Devika 3 Devinに対抗することを目指したエージェント型AIソフトウェアエンジニア (2)。Claude 3やGPT-4/3.5、ローカルLLM(Ollama経由)など複数のモデルをサポート (2)。高レベル指示を理解し、ステップに分解してコードを生成・実行する。Webブラウザ操作モジュールも備え、Webから情報収集可能 (2)。 : オープンソースであり複数のAIモデルを利用できる柔軟性。自然言語指示からのタスク分解・コード生成能力はDevinに近く、Devinチームの有名デモ(Game of Life生成)を再現可能 (4)。
: 使用にはOpenAIやAnthropicのAPIキー、Bing検索キー、Netlifyキーなど複数の設定が必要 (4)。開発チームはコミュニティ主導で、商用Devinほどの包括的な最適化・洗練度には達していない。
AutoCodeRover 5 Microsoftの研究論文に基づく自動バグ修正エージェント (2)。コードベースを構造的に検索してコンテキスト収集し(ASTを用いたコード検索) (2)、テストがあれば統計的フォルトローカライゼーションで不具合箇所を特定しつつパッチを生成 (2) (2)。SWE-benchの現実的課題で約16%(簡易版で22%)のIssue修正に成功 (2)。 : 論文に裏付けられた高度なバグ修復能力を持ち、大規模コードにおける不具合検知・修正に強み(SWE-Benchで高い修正率を達成) (2)。コード解析やテスト活用が巧妙で、Devinが目指す自律的コード修正タスクにおいて有力。
: 主にバグ修正特化であり、使うには研究レベルのセットアップが必要。汎用的なUIやタスク管理機能は無く、総合開発エージェントとしての使い勝手はDevinほどではない。
Anterion (GitHubリンク不明*) SWE-Agent(後述)の拡張を目的としたOSSエージェント。OpenDevin風のフロントエンドを持ち (2)、GitHub Issueに基づく課題解決からさらに一般的なエンジニアリングタスクへの適用を目指す (2)。デモではGitHub上の人気リポジトリのスター数集計タスクなどを実行 (4)。 : 学術ベースのSWE-AgentにUIや汎用タスク計画機能を追加し、より柔軟な課題に対応しようとしている。Devin同様、ブラウザ情報取得やクラウド連携(Vercel対応予定)など拡張も計画 (4)。
: 開発が始まったばかりで知名度・完成度とも低く、現時点では実証的な成果や具体的な多機能性は限定的。Devinと比べると成熟度に大きな開きがある。
MetaGPT 6 複数のエージェント(例: PM、アーキテクト、開発者など役割別GPT)を協調させてソフトウェア開発を行うフレームワーク (2)。Devin公開後、開発チームはDevinの機能の大半を置き換えることを目標に掲げ、SWEベンチマークでDevinを上回るスコアを達成したと主張 (4)。手順書(SOP)に沿ったチーム開発プロセスのシミュレーションが特徴 (2)。 : Devinとは異なるマルチエージェントアプローチで、設計~実装まで役割分担する点がユニーク。様々な役割のAIが協働することで複雑なタスクへの対応力が期待でき、既に一部指標ではDevinを凌駕する可能性も示唆 (4)。
: フレームワークとして汎用的であり、具体的な開発環境統合や即戦力という点では準備が必要。システムが複雑になる分、単一AIのDevinに比べユーザーが扱う難易度やリソース要件が高い可能性がある。
AutoDev 7 マルチプログラミング言語対応の自律エージェント (2)。PythonやTypeScriptはもちろん、Rust、Java、Kotlin、Go、C/C++などにも対応する点を特色とする (2)。デバッグ機能やプロンプトのカスタマイズ機能を備えたデモが公開されている (4)。 : Devinが主にPython中心であるのに対し、AutoDevは多数の言語を扱えるため、様々な技術スタックのプロジェクトに適用可能 (2)。
: 一般ユーザーが使うにはセットアップ難易度が高く、動作にはプログラミング知識が必要 (4)。UIも洗練されておらず、手軽さや完成度はDevinに劣る段階。
Codel 8 ターミナル・ブラウザ・エディタを用いて複雑なプロジェクトを完全自動で進行できることを目指したエージェント (9)。全てDockerサンドボックス内で動作し、安全に外部Webからの情報取得も可能 (2)。組み込みのテキストエディタでコードプレビューができ、実行コマンドや出力履歴はPostgreSQLデータベースに保存される (2)。 : 開発に必要な環境(ターミナル実行・Web閲覧・エディタ)が一体となったオールインワン設計で、セキュアなコンテナ内で完結するため安全性・再現性が高い (2)。Webリソース参照や履歴保存が可能で、長期的な自律開発タスクにも耐えうる設計。
: スター数約2千と普及途上で、Devinほど多くのユーザー検証を経ていない。DockerやDBが前提のため導入ハードルが高く、軽量な開発補助としては扱いにくい面もある。
Plandex 10 長時間・複数ファイルにまたがる複雑なタスクを、自律エージェントが細かいサブタスクに分割し順次実行していくエンジン (2)。大きなタスクを細分化し、一つずつ実装・完了まで繰り返す戦略で、開発者が苦手な煩雑作業の自動化や新技術への対応支援を狙う (2)。 : タスク分割と順次処理に特化しており、実行計画の立案から実装まで自動で進めるため、バックログの消化や行き詰まり解消に寄与する (2)。Devinのような包括的エージェントにこの手法を組み込むことで、効率化が期待できる。
: 単体のプロジェクトとしては知名度が低く、実験的要素が強い。Devinが備える他の機能(UIやCI連携など)は持たないため、あくまで部分的なソリューションに留まる。
Devon 11 Entropy ResearchによるDevinクローンの一つ (2)。Python製で、ソフトウェア開発・保守を支援するSWEエージェント。堅実なマルチファイル編集やGit等の開発ツール利用に焦点を当てている (2)。現在GitHubスターは数百程度で詳細なドキュメントは未整備。 : シンプルな構成で既存の開発ワークフロー(Gitを用いた複数ファイル編集など)に沿った支援を目指しており、動作の信頼性に重きを置いている (2)。
: 開発初期段階であり、機能の充実度や情報発信は限定的。Devinのような高度な計画策定や自律性は未実証で、今後のベンチマーク結果待ち (4)。
SWE-Agent 12 Princeton大学らによる研究志向のエージェント。SWEベンチマーク(GitHub Issueに基づく課題集)で12.3%の解決率を達成 (2)し、Devinに迫る性能を示す。Dockerでコードを実行し、LLMが扱いやすいよう「Agent-Computer Interface (ACI)」という限定コマンド環境を提供 (2)。開発者のようにコード閲覧・編集・テスト実行・GitHub投稿を行えるが、インデントミス等はエディタ側で検出・フィードバックし再試行させる堅牢性が特徴 (2) (2)。 : AIエージェント用に設計された専用インターフェースでLMの弱点を補い、高い問題解決率を実現 (2) (2)。Lintによる構文チェックや100行ごとの読み取り制限など、安全で効率的な開発プロセスを踏襲しており、バグ修正タスクではDevinに匹敵する成果を示す (2)。
: 提供コマンドを絞った設計ゆえに汎用性は限定的。対応言語も主にPythonに留まり、自由度の高い創造的な開発や複雑なデプロイ業務など、Devinがカバーする他領域には直接は対応していない。
Aider 13 ターミナル上で動作するAIペアプログラミングツール。ローカルのGitリポジトリにあるコードを編集する形で、対話しながら開発を進められる (13)。コマンドラインでファイルを指定し、部分的なコード修正や追加をLLMに提案させ適用するといった使い方が可能。 : シンプルなCLIで既存の開発フローに組み込みやすく、無料かつオープンソースで利用可能。Git管理されたコードとの差分を直接AIが編集するため、開発者の生産性向上に直結しやすい (13)。
: あくまで人間開発者との対話補助であり、自律的にマルチステップのタスクを完遂することはできない。タスク計画やデプロイなどは人間が別途対応する必要があり、Devinのような「任せて完結」型ではない。
Tabby 14 セルフホスト可能なGitHub Copilot代替のAIコーディングアシスタント (14)。モデルとサーバを含めオープンソースで提供され、OpenAPIインターフェース経由でエディタ等と統合できる (14)。デモ用のVS Code拡張やチャット回答エンジンも実装されている。 : オンプレミスで動作しプライバシーを確保できる点や、クラウド不要で自前GPUでも動かせる軽量性 (14)はDevinにはない利点。コード補完や質問応答を自社環境で完結でき、データを外部サービスに送信しなくて済む。
: 提供機能は主にコードの補完・生成支援に留まり、タスクの自動計画遂行や外部ツール連携といったDevinの包括的能力は持たない。あくまで「賢いコーディング補助」であり、自律エージェントではない。
Jenkins 15 / 16 オープンソースの定番CI/CDサーバ。Java製でマルチプラットフォーム対応し、プラグインを通じて各種DevOpsツールやクラウドと連携可能 (17) (17)。コードのビルド、テスト、自動デプロイパイプラインを定義・実行でき、長年にわたり広く利用されている。 : 継続的インテグレーション/デプロイ領域では実績豊富で信頼性が高い。既存のあらゆるVCSや環境と統合でき、大規模プロジェクトの自動ビルド・テスト・デプロイを安定して支える (17) (17)。
: AIによる自動コード生成やタスク計画機能はなく、パイプライン設定やスクリプト記述は人手に依存。Devinのように自然言語で「アプリをデプロイして」と依頼して一連を任せることはできない。
HashiCorp Vault 18 オープンソースのシークレット管理ツール。APIキーやパスワード、証明書など機密情報を安全に保管・発行し、厳格なアクセス制御と詳細な監査ログを提供 (18)。動的シークレット機能により、要求時に一時的なクラウド認証情報を発行し期限が来れば自動失効するなど、高度な秘密情報ライフサイクル管理が可能 (18) (18)。 : セキュリティ重視の設計で、機密情報の集中管理とアクセス制御を高水準で実現。クラウドやデータベース資格情報をオンデマンド発行・失効できる機能は、人間にもAIエージェントにも安全な環境変数供給手段として有用 (18)。
: あくまで秘密情報の保管・管理に特化しており、開発タスクそのものには関与しない。Devinのようなコード生成やタスク実行能力は無いため、Vault自体を使ってもソフトウェア開発の他工程は別途カバーする必要がある。
Terraform 19 HashiCorp社によるインフラ構築自動化(IaC: Infrastructure as Code)の代表的OSS。HCLと呼ばれるシンプルな定義言語で、クラウドやオンプレのリソース(VM、ネットワーク、DB等)を宣言的に記述しコードで構築・変更・破棄を自動化できる (20)。マルチクラウド対応で、一つの設定からAWS/Azure/GCP他複数環境へ再現性高くデプロイ可能。 : インフラ環境の構築・変更を完全自動化する点ではDevinの「仮想環境制御」機能を支える有力ツール。手作業なく一貫した環境を用意でき、人為ミスを減らせる。DevinがTerraformを呼び出す形でクラウドリソース準備を代行する、といった統合も考えられる。
: Terraform自体は宣言型の設定ファイル作成が前提で、何を構築するかは利用者が記述する必要がある (20)。自然言語でインフラ構築を指示しAIが適切なTerraformコードを書いてくれる…という領域がまさにDevinの目指すところであり、Terraform単独ではその知能部分は提供しない。
GitLab 21 オープンソースで提供されるDevOps一体型プラットフォーム。リポジトリ(Git管理)、イシュー追跡、マージリクエストによるコードレビュー、CI/CDによる自動ビルド・テスト・デプロイなど、ソフトウェア開発ライフサイクルの全てを単一アプリケーションでカバーする (22)。自己ホスト可能で大規模プロジェクトでも利用実績多数。 : 開発に必要な機能が統合されており、複数ツールを組み合わせることなくプロジェクトを推進できる。「リポジトリ連携」「タスク管理」「デプロイメント」等Devinが関与する周辺機能はGitLab上で完結するため、AIを組み合わせるベースとして最適。
: 標準ではAIによるコード生成や自動問題解決機能は無い(※近年一部AI機能を追加中だがDevinほど汎用ではない)。結局のところコードを書くのもCI設定をするのも人間であり、Devinのような自律エージェント的振る舞いは別途組み込まないと実現しない。

:「Anterion」のGitHubリポジトリはE2Bブログ等で紹介されていますが、2024年時点では一般公開URLが不明のため割愛しました。

以上のように、Devin相当の総合力を持つOSSは複数登場していますが、それぞれ得意分野や成熟度に差があります。オープンソースである強みを活かし、組み合わせや拡張によってDevin的な開発支援環境を自主構築することも可能です。例えば、「DevikaやOpenHandsでコード生成を行い、Vaultでシークレット管理、TerraformとJenkinsでインフラとCI/CDを自動化する」といった組み合わせも考えられます。プロジェクトの目的に応じて上記OSSを選定し、必要に応じて相互連携させることで、独自のAI開発支援スタックを構築できるでしょう。

参考文献

[1] GitHub: All-Hands-AI/OpenHands
[2] GitHub - e2b-dev/awesome-devins: Awesome Devin-inspired AI agents
[3] GitHub: stitionai/devika
[4] Open-Source Alternatives to Devin — E2B Blog
[5] GitHub: AutoCodeRover
[6] GitHub: MetaGPT
[7] GitHub: AutoDev
[8] GitHub: semanser/codel
[9] kyrolabs/awesome-agents: Awesome list of AI Agents - GitHub
[10] GitHub: Plandex
[11] GitHub: Entropy-Research/Devon
[12] GitHub: Princeton-NLP/SWE
[13] GitHub: Aider-AI/aider
[14] GitHub: TabbyML/tabby
[15] 公式サイト
[16] GitHub: jenkinsci
[17] 20 Best CI/CD Tools for 2025 - The CTO Club
[18] GitHub: hashicorp/vault
[19] GitHub: hashicorp/terraform
[20] Terraform Deployment | Deploying & Managing Cloud Infrastructure Using Terraform - Cardinal Peak
[21] GitLab CE リポジトリ
[22] GitLab - DevOps Platform

P-HunterP-Hunter

OpenHandsに特化して詳細な機能一覧を整理し、Devinとの比較を行います。具体的には、

  • OpenHandsの主要機能一覧とその詳細説明
  • 各機能の技術的な仕様やユースケース
  • Devinとの比較(強み・弱み)

これらの情報をまとめて報告します。少々お待ちください。

**OpenHands(旧称OpenDevin)**は、Cognition社が提供する自律型AIエンジニア「Devin」の機能を模倣・強化することを目的としたオープンソースのAIソフトウェア開発エージェントです (1)。人間の開発者が行うほぼすべての作業(コードの編集・生成、コマンド実行、ウェブ閲覧、外部API呼び出しなど)を自律的にこなすことができます (2)。以下に OpenHandsの主要な機能 とその技術的詳細をまとめます。

OpenHandsの機能一覧と詳細

機能 詳細・仕様 技術スタック・実装 ユースケース・制限(ロードマップ)
オープンソース & 自己ホスト
(Open-source, Self-hosting)
MITライセンスの完全オープンソースプロジェクト。無料で利用・改変可能 (3)。Dockerによる自己ホスト型デプロイに対応し、プライベート環境で実行可能 (4) (4)。 バックエンドはPythonベース。Dockerコンテナ上で動作し、コード実行用のLinux環境をサンドボックス化。必要に応じてKubernetesなどによる拡張も検討 (5)。フロントエンドはWeb(React等)またはVSCodeプラグイン(統合環境向け)も想定 (5)。 *社内開発などコードを外部に出せないケースでの利用、クラウドに頼らない開発支援。オープンソースのため用途に合わせた機能拡張や修正が可能。 (2)ただしマルチユーザ非対応(単一ユーザ環境を想定)であり、複数ユーザでの同時利用やスケーラビリティは今後の課題 (2)。月次のロードマップが公開されており、コミュニティ主導で継続的に改良予定 (6) (2)。
複数LLMモデル対応
(Multi-LLM Support)
大規模言語モデル(LLM)をプラグイン的に差し替えて利用可能。OpenAIのGPT-4やAnthropic Claude、さらにはローカルモデル(例:Ollama経由のLLM)など様々なモデルを選択できる (2) (4)。モデルごとにエージェントのワークフロー(思考プロセス)は共通で、APIキーやモデルエンドポイントを設定するだけで切替え可能。 LLMとの連携部はモデルごとのAPIクライアントやSDKを利用(OpenAI API、Anthropic APIなど)。ローカルLLMの場合はOllamaやHugging Face経由でモデルをロード (3)。内部的には抽象化されたモデルプロバイダ層で、プロンプトの入出力を行う。 *用途に応じてモデルを選択し、コストと性能を調整可能。例えば高精度が必要な場合はGPT-4、低コストで試行する場合はClaude などと使い分けられる (7)。
※無料で利用できるが有料APIモデルを用いる際はAPI利用料が別途発生する (7)。将来的にはオープンソースのLLMとの連携強化や専用チューニングモデルのサポート拡充も予想される。
コード生成・実行エージェント
(Code Generation & Execution)
*ユーザの指示に基づきコード(ソースコードやスクリプト)を生成し、実行して結果をフィードバックする自律エージェント。CodeActフレームワークに従ったワークフローで動作し、必要に応じて追加の質問で要件を確認しながらコードを作成・実行・改善します (8)。コードの実行結果やエラーメッセージを解析し、再度コード修正を試みるループ処理も可能です。 *エージェントの思考ループ(プランニング・実行)はPythonで実装。CodeAct論文 (8)に基づきプロンプト工夫とツール使用でコードを生成。実行はDocker上の隔離されたLinux環境でPythonスクリプトやシェルコマンドとして実施 (8)。生成コードのテストや検証も同環境で行う。 *自動コーディング、スクリプトの作成・テスト、アルゴリズム実装などのタスクを人手を介さず実行。 (2)例えば「JSONファイルを読み込んで統計量を計算するプログラム作成」といった依頼に対し、コードを書いて実行し結果を返す。
※複雑な要件では完全自動化が難しい場合もあり、対話による要件伝達が不十分だと空回りする傾向が報告されています (1)。デフォルトのLLM性能次第では能力不足となるケースがあり、より高性能なモデルやユーザからの適切な指示が必要です。
ウェブブラウジング
(Web Browsing Agent)
*インターネット上の情報収集やWebアプリ操作を行うエージェント。内部に仮想ブラウザを持ち、指定されたURLのページ内容をテキストとして解析し、リンクのクリックやスクロールなどの操作を自動実行します (8)。ページ上の要素は「段落」「ボタン」など種類とテキスト内容がラベル付けされ、エージェントはそれらを順次検査・操作して目的の情報を取得します (8)。 *ヘッドレスブラウザ(例:PlaywrightやPuppeteer)を利用したWeb操作モジュール。ページDOMを解析し、要素一覧と操作コマンドをテキストに変換してLLMに提示。LLMが選択した操作をブラウザに実行させ、更新後のページ情報を再取得…というループを行う。HTTPクライアントやレンダリングエンジンを組み合わせ、安全な範囲で外部サイトにアクセス。 *ドキュメントサイトやStackOverflowから関連コードを検索・抜粋するといった用途 (2)、必要な情報収集の自動化(スクレイピングに近い動作)などに活用可能。
※ログインが必要なページや高度に動的なWebアプリの操作には非対応の場合があります。また過度なスクレイピングは利用者側で注意が必要です。今後、ブラウザ操作の精度向上や対応サイト拡大が検討課題です。
マイクロエージェント
(Micro Agents for Auxiliary Tasks)
*開発に付随する定型タスクをこなす小型エージェント群。コミットメッセージの自動作成、データベーススキーマの生成、コードベースの要約、数式問題の計算、他のエージェントへのサブタスク委任など、多様な補助機能を提供 (8)。ユーザーは独自のプロンプトを記述して新たなマイクロエージェントを定義することも可能 (8)。 *マイクロエージェントはプリセットのプロンプトテンプレートとして実装。背後では同じLLMエンジンを利用し、特定タスクに最適化された指示を与えることで動作する。例えば「コード変更の要約」を行うエージェントでは、差分を入力し要約を生成するプロンプトが組まれている。 *ソフトウェア開発の生産性向上に寄与。例:コード修正後にコミットメッセージを自動生成して提案、大規模プロジェクトのコード概要を要約して新人開発者に提示、複雑なSQLクエリの骨子を自動生成…など。 (8)ユーザ自身でタスク固有のエージェントを追加できる拡張性もあり、コミュニティ発のテンプレート共有も期待される。
バージョン管理統合 & インクリメンタル開発
(Version Control & Iterative Development)
Git等のバージョン管理システムと連携した反復開発ワークフローを採用。エージェントがコードベースに変更を加える際、差分を逐次管理し、人間開発者がレビュー・承認してから変更を確定できる (1)。継続的にコードを生成・修正しながら、小さなコミットを積み上げていくことで安全に開発を進める設計です。 *内部でGitリポジトリを利用可能。変更内容は一時エリア(ブランチやスタッシュ)に蓄積し、ユーザ確認後にプロジェクトにマージする仕組みを採用(※OpenHands自体にこの機能が備わるかは不明瞭だが、類似ツールのplandexではサンドボックス内変更のレビュー適用が行われている (1))。OpenHandsはドキュメントで既存VCシステムとのシームレスな統合を謳う (4)。 *本番コードへの誤った変更の直接適用を防ぎ, 安全にAIがコード提案を行うための仕組み。特に大規模プロジェクトでAIが大幅な変更を行う際、人間が確認しやすいよう差分管理を自動化する。
※OpenHands自体はシングルユーザ想定のためチーム協調的なコードレビュー機能は限定的ですが、GitHubとの連携(後述のActions活用)によりPRベースでの導入も可能です。
多様なインタフェース
(Interfaces: Web UI, CLI, Actions)
利用形態として、Webブラウザで動作するチャットUI(デフォルトは http://localhost:3000 で提供) (2)、ターミナルから操作できるCLI、スクリプトから呼び出すヘッドレスモード、さらにGitHubリポジトリのIssuesと連動して動くGitHub Actionsも用意されています (2)。 *Web UIはおそらくReact + REST/Socket(API)の構成でバックエンドと通信。CLIはPythonの対話モードまたは専用コマンドで実装され (2)、ヘッドレスモードではPython API経由でエージェントを操作可能 (2)。GitHub ActionsはDockerコンテナとしてOpenHandsを実行し、特定ラベルのIssueに反応して自動でコード変更の提案やPRを作成する仕組み (2)。 *開発フローに合わせた柔軟な利用が可能。例:ブラウザUIで対話的にOpenHandsとコーディングしつつ、CIパイプラインではActionsで自動バグ修正を試みる、といった併用も可能です。
※現時点で公式にSlackや他のチャットプラットフォーム連携は提供されていません。将来的にコミュニティや拡張でIDEプラグイン(VSCodeなど)やチャットボット統合が進む可能性があります。

続いて、商用版のDevinとOpenHandsの機能・特性を比較します。DevinはCognition社が提供する有償サービスで、「世界初のAIソフトウェアエンジニア」として2024年に公開されました (9)。ソフトウェア開発の様々なタスクを自律的に行うよう設計されていますが、その提供形態や性能にはOpenHandsと違いがあります。

OpenHandsとDevinの機能・特性比較

比較項目 OpenHands(旧OpenDevin) Devin(Cognition AI)
ライセンスとコスト
(License & Cost)
オープンソース(MITライセンス)で無料 (3)。自身の環境でホスト可能なため、利用料は基本発生しない(※ただし利用するLLMのAPI料金は別途) (7)。誰でもGitHubから入手・改良でき、コミュニティベースで開発が進行中 (6)。 *プロプライエタリな商用サービス。2024年12月に一般提供開始され、利用料金は月額500ドルからと高額 (9)。サービス利用にはCognitionとの契約が必要で、コードやモデル内部にはアクセスできない(クローズドソース)。費用に見合ったサポートやアップデートが提供される。
デプロイ方法
(Deployment & Interface)
*ユーザ自身のマシンやサーバー上でDockerコンテナを起動して利用 (4)。対話はWebブラウザの専用UIやCLIで行う (2)。シングルユーザ想定であり、チームで使う場合は各自がセットアップするか工夫が必要。 *Cognition社のクラウド上でホストされ、Slackを主要インタフェースとして操作するデザイン (9)。利用者はSlack上でDevinとチャットし、タスクを依頼する。バックエンドではCognitionのサーバ上でDocker化されたエージェント環境(ターミナル・ブラウザ・エディタ・プランナー搭載)が動作する (9)。複数メンバーが同一SlackチャンネルでDevinを利用でき、企業チーム向けに調整されている。
AIモデル
(AI Model Usage)
ユーザが選択した任意のLLM(例:GPT-4, Claude等)を1つ主に用いてエージェントを動作。 (4)必要に応じ都度プロンプトを送り、応答をもとにツール実行・コード生成を行う。
*現状特定の専用モデルはなく、あくまでプラットフォームとしてLLMを活用。モデルの精度向上はユーザ側のモデル選択に依存する。
*「Compound AI System(複合AIシステム)」と称され、複数のAIモデルを統合して動作 (9)。例としてOpenAIのGPT-4など複数モデルを裏で使い分けている(コード生成専用モデル+対話モデル+プランナーなど)。タスクに応じて適切なモデルを自動選択・組み合わせる設計で、専門特化したモデル群により性能向上を図っている。ユーザはモデルを選べずサービス側で最適構成が提供される。
対応機能の範囲
(Capability Range)
*主にソフトウェア開発タスク全般。コードの生成・修正・実行、エラーデバッグ、ウェブ検索と情報収集、開発付帯作業(ドキュメント要約やコミット文作成など)を網羅 (2) (8)。ユーザから与えられたプロジェクト内で対話的にコーディングを進め、必要に応じてユーザに質問しながらゴールを目指す。 *ソフトウェア開発タスクに加え、運用・支援タスクまで幅広くカバー。公式ドキュメントによれば、コードの執筆・実行・テストはもちろん、PRのレビュー、コードベースの大規模リファクタや移行、オンコール対応、簡易な個人秘書業務(DoorDashでのランチ注文代行など)まで可能と謳われている (9)。外部APIとの連携機能も備え、メール送信(SendGrid経由)やチャットボット、クラウドサービス操作など、開発以外の雑務支援も目指している (9)。
ユーザの関与度
(User Involvement)
*人間開発者がループの中で随時確認・修正することを前提とした協調スタイル。OpenHands自体は自律行動するが、小さなタスク単位で実行し結果を報告しながら進むため、ユーザが途中で指示を追加したり、生成物をレビューして次の手を促すことができる (1)。エージェントの提案を採用するか取捨選択する裁量はユーザ側にある。 *より自律性が高い設計で、一度タスクを与えると人手をあまり介さずに完了まで動くことを目指している。Slack上で対話はできるが、基本的には「指示→完了報告」という形で、人間は結果を待つ場面が多い想定。計画立案もAI側(プランナー)で行い、必要に応じ途中経過を報告したり質問してくる。ユーザは高レベルな監督にとどまり、細部のコードレビューや修正はAIが担う方向性。
*ただし実際にはタスク失敗時に人間の介入が必要になるケースもある。
パフォーマンス
(Task Performance)
*選択するLLM性能とユーザの指示次第で変動。高度なモデル(例:Claude 3.5やGPT-4)使用時には先行研究と同等レベルの課題解決能力を示しており、ソフトウェア工学問題やWeb閲覧タスクで既存エージェントと同等の成功率を達成したという報告がある (8)。
一方、モデルが不十分な場合やタスクが複雑すぎる場合には中断・失敗も起こりうる。オープンソースゆえ性能チューニングはユーザ次第な部分も大きい。
*公式には「エンジニア並みの成果」を謳うものの、公開直後の評価では**20個中3つのタスクしか完了できず(成功率15%程度)**と報告された (9)。簡単なタスクでも想定以上に時間がかかったり、実現不可能な要求に対して何日も誤ったアプローチを試みるなど、性能面の課題が指摘されている (9) (9)。
ただしUIの洗練度や動作が成功した時のインパクトは高く評価されており、今後のモデル改良で改善余地がある。
拡張性・カスタマイズ
(Customizability)
*非常に高い。オープンソースであるためコードレベルで拡張が可能であり、新たなツールやエージェントをコミュニティが追加できる。ユーザ自身もプロンプトを工夫して独自のマイクロエージェントを作成可能 (8)。また社内向けに機能を絞ったり、安全対策を強化するといったカスタムも自由。 *クローズドな商用サービスのため、利用者が内部挙動を変更することはできない。提供される機能セットの範囲でしか動作せず、新しいタスクへの対応は全てベンダー側のアップデート待ちとなる。ユーザはSlack経由の対話方法など限定的なカスタマイズ(カスタムプロンプトの工夫程度)は可能だが、システム自体に手を加えることはできない。
サポート体制
(Support & Community)
*コミュニティベースでのサポート。Slack/Discord上で開発者同士が情報交換し、GitHubのIssueでフィードバックを受け付けている (2)。公式の商用サポートはないが、OSSコミュニティとして半年足らずで186名以上のコントリビュータから2000件を超える貢献があり活発に開発が進む (6)。不具合対応や機能追加の速度もコミュニティ次第。 開発元による直接サポートが期待できる。有償サービスのため、利用企業向けにヘルプデスクやオンボーディング、アップデート通知など手厚い支援がある可能性が高い。プロダクト自体も*「洗練されたユーザー体験」**を重視して作られており (9)、UIの使いやすさやドキュメントの整備などは商用らしい品質になっている。一方でコミュニティから内部に貢献する術はなく、ブラックボックスな部分が多い。
併用の可否
(Using Both Together?)
*基本的にはDevinの代替を目指したツールであり、重複する機能が多いため同時併用のメリットは少ない。 (7)例えばDevinを導入できないメンバーが個人用途でOpenHandsを使う、といった補完は可能だが、直接統合された連携機能は提供されていない。 *Devin自体に外部AIエージェント(OpenHands)と連携する仕組みはなく、併用する場合は別々に運用する形となる。同一プロジェクトで片方が出力したコードをもう片方が利用するといったことは手作業で可能だが、両者は基本的に競合関係にあり、一方を使えば他方は不要なケースがほとんどである。

まとめ: OpenHandsはDevinと比べて 無償で柔軟 に利用できる点が最大の強みであり、技術スタックの公開・拡張性の高さからユーザニーズに応じたカスタマイズが可能です。一方で、商用製品であるDevinは 洗練されたUIや公式サポート、社内ツールとの統合といった利点があります。ただし現時点のタスク完遂能力はどちらも発展途上であり、特にDevinは価格に見合う成果を出せていないとの指摘もあります (9)。用途や予算に応じて、すぐ使える完成度を取るならDevin、コストを抑えて試行錯誤するならOpenHandsという選択肢になります。また必要に応じて、チームではDevinを使いつつ個人作業や実験的プロジェクトでOpenHandsを活用するといった 併用も可能 ですが、基本的には同種の機能を持つため代替関係と捉えるのが適切でしょう (7) (7)。

参考文献

[1] 〖コード自動生成エージェントOpenDevin、Pythagora、plandexの比較検討〗
[2] GitHub - All-Hands-AI/OpenHands: OpenHands: Code Less, Make More
[3] OpenHands-AI代理软件工程师升级 - ILINK连接精选 %AI agent %llm agent
[4] Opendevin: Features, Use Cases & Alternatives
[5] OpenDevin介绍-CSDN博客
[6] OpenHands: An Open Platform for AI Software Developers as Generalist Agents | OpenReview
[7] Save $500+ on Dev Costs with OpenHands (formerly OpenDevin)? : r/cursor
[8] Llama On the Battlefield, Mixture of Experts Pulls Ahead, Open Agentic Platform, Voter Support Chatbot
[9] 'First AI software engineer' is bad at its job • The Register