🏭

ClaudeCode使いにもお勧め!AIコーディングエージェントDroid CLIを紹介

に公開

はじめに

ここ1年で、開発者向けの「AIコーディングエージェント」が一気に増えました。

その中でもClaude Codeの台頭を機にCLIベースのAIコーディングエージェント方面も盛り上がりを見せています。

そんな中登場したFactory社のDroid CLIを最近好んで使っているのですが、日本語圏での知名度がまだまだなので、他のコーディングエージェント独自要素を中心に感想も併せて紹介したいと思います。

https://factory.ai

ベンチマークで裏付けられた、コーディングエージェントとしての設計品質の高さ

Droid CLIは、CLIコーディングエージェントの性能を測る、Terminal‑Bench 1.0/Coreにおいて優れた成績を収めています(最新のTerminal‑Bench 2.0は投稿時点で未提出)

Terminal-Bench というベンチマークは実際のターミナル環境でエージェントにサーバセットアップやビルド、ログ解析などをやらせるベンチマークで、現在のところターミナル系エージェントの事実上の標準になりつつあります。
2025年9月時点の最新リーダーボードでは、Factory の Droid が タスク成功率 約 58.8% で 1 位。
Factory が公開している結果では、Opus 4.1(no thinking)、GPT‑5(medium reasoning)、Sonnet 4 といった 単一モデル構成の Droid が、他のエージェントの組み合わせを抑え上位にランクインしています。
単に「モデルが強い」というよりも、エージェント側の設計(計画の立て方・コマンドの打ち方・安全装置など)の出来が良いことが数字で裏付けられています。
Factory のメンバーも LinkedIn や投資家向けの記事の中で、「いいモデルを載せるだけでは足りず、Droid の設計そのものが差を生んでいる」と強調しており、モデル依存ではなく“コーディングエージェントとしての品質”で勝負しているのがこのツールの特徴と言えます。ただし、Terminal-Bench2.0は投稿時点で未提出であり、より新しいベンチマークでの評価が求められています。

具体的に設計に対してどのような工夫がされているかは、公式記事から詳しく確認できます。

https://factory.ai/news/terminal-bench

ClaudeCodeライクに寄せた機能群

機能面だけを見ると、Claude Codeな主要機能が大体備わっています。

  • Agent機能搭載(Custom Droids)
  • 対話型インターフェース、非対話型インターフェース(Droid Exec)の両面対応
  • コマンドやツールの使用可否を設定することでエージェントの自律性の機微をコントロール可能
  • カスタムスラッシュコマンド機能搭載
  • Hooks機能搭載
  • Claude Code互換のスキルシステム
  • Plan Mode搭載(後述)
  • MCP対応

以上のように、Claude Codeに近い機能が備わっており、CCユーザーに親しみやすい作りとなっています。

更にClaude Codeからエージェント、スラッシュコマンド、スキルの移行機能が備わっており、環境を0から再構築せずともClaude Codeから容易に試行し併用することが可能です。

柔軟なモデル切り替えに対応した仕様駆動開発用モード

Specification Mode の概要

CLI上で通常モードからSpecification Modeに切り替え、要求仕様を数文入力することで以下のようなフローで実装計画を足ることが可能です。

解析フェーズ:既存のコードベースを含むローカルファイル群と外部ソースからコンテキスト情報を収集し、AGENTS.md の規約や関連ファイルと依存関係やコーディングパターンを分析

計画フェーズ: 変更が必要なすべてのファイルを特定、テストおよび検証手順を考慮し包括的な実装戦略を策定します。解析フェーズ開始から計画フェーズ終了までの間、フェーズ終了まで、全ての探索操作は読み取り専用となります。

ユーザーは実装計画をレビューの上承認するまで何度でもDroidに実装計画を練り直してもらうことが可能です。

Mixed Models 機能

Mixed Models 機能を用いて、仕様駆動開発モードの実装フェーズと仕様フェーズで別のモデルを使うことが可能です。

  • 通常モード(実装)はコストの安い・レスポンスの速いモデル(例: Claude Haiku / GLM 4.6)

  • Specification Mode のみ、推論リソースを盛ったモデル(例: GPT‑5 / Claude Sonnet 4.5 reasoning high)

といったコスパの良い構成を、CLI の /model から設定できます。

Mixed Modelsを設定すると、Specification Mode に入るときだけ「Spec 用モデル」に切り替わり、仕様のレビューが終わり、実装フェーズに移ると自動的にデフォルトモデルに戻ることができます。

OpenAI 系 / Anthropic 系 など、プロバイダごとの互換性制限あるため設定時は都度ドキュメントを当たるとよいでしょう。

BYOK (Bring Your Own Keys) 対応により無料で利用可能

Droid CLI はSaaS側が用意したモデル群だけでなく、BYOK (Bring Your Own Keys) にも対応しています。

  • モデル由来のロックインを避けられる
  • Mixed Models機能を用いることで、多彩な構成を試せる
  • BYOCのみ使えば、クレカ登録しないまま完全無料で利用可能(トークン分は Factory 側のモデルで無料試用、その後はBYOKに切り替えという流れ)

等、様々なメリットを享受可能です。

エンタープライズ前提のプロダクト設計

この記事作成のための調査で初めて知ったのですが、Factory は最初から「金融・政府・医療レベルのエンタープライズをターゲットにしたエージェント基盤」を想定して設計されているようです。

  • SOC 2, ISO 27001, ISO 42001 などの認証を取得済
  • 様々な環境で実行可能
  • 組織レベル、プロジェクト、フォルダ、ユーザーで設定を切り替えられる階層型の設定管理が可能
  • Droid Shield という、プロンプト、ファイル、コマンド全体にわたる機密情報スキャンとDLP(データ損失防止)スタイルのチェック機能を搭載
  • ローカルのターミナルやIDEだけでなく、GitHub Actions等のCI/CD環境や仮想マシン、devcontainer環境、さらには完全に外部ネットワークから隔離された環境(インターネットへの通信が一切不可能な環境)でも動作可能

使ってみての感想

元々ClaudeCodeやCodexを使っていたため、移行機能等も相まってスムーズに導入できました(CLI初見ですといった方にはちょい厳しいかもです)

導入以降しばらく使ったう上で、他のコーディングエージェントより質の高いハーネスのおかげか、モデルベンチマーク以上の出力品質を享受できているのかなと思いました。

加えて、BYOKとMixed Models機能の掛け合わせによりモデル選択の余白が生まれ、今まで試したことなかったプロパイダやモデル等を試す機会が増えました。

反面、一部のモデル切り替えの組み合わせによるバグが起きたり、日本語入力周りに問題があったり(こちらは今要望を出した上で対応してもらってます)といった不具合はまだ少なからず残っており、発展途上中であることは否めません。

その上で、日々のChangeLogを確認する限り数日に1度大きめのアプデが投入されていることから開発チームの活発さも感じられ、将来性をより感じられるプロダクトだと感じました。

今後Gemini3.0が控えているので、その辺りとの連携にも期待しつつ、それまではメインエージェントの一角として活用していきたいです。

終わりに

Droid CLIは、エンタープライズレベルのセキュリティと柔軟な機能や設定を兼ね備えた強力なコーディングエージェントです。

特に、Mixed Models機能とBYOK対応は、開発チームのニーズに応じた最適な構成を実現可能にし、コスト効率と品質の両面で優れたAIコーディングエージェントの新たな選択肢となるでしょう。

Discussion