🦆
chatdev論文を眺めてみる

2025/02/16に公開
 なぜ作成したのか開発から遠く離れた立場になったので、今どきの開発ってどんな感じなんだろ、と開発をシム的に俯瞰してみたくなった

 件の論文https://arxiv.org/abs/2307.07924

 要約してもらった内容：「ChatDev: Communicative Agents for Software Development」
 1. 背景と動機ソフトウェア開発には、要件分析・設計・コーディング・テストなど多段階にわたるプロセスと、ドメインや役割の異なる多様な専門家（アーキテクト、プログラマ、テスターなど）の協働が必要です。近年の深層学習手法は、それぞれの工程（デザイン、コーディング、テストなど）を個別に支援する形で研究が進んできました。しかし、個別の技術が断片化してしまい、統合的・自律的に開発を進めることは難しいという課題が指摘されています。
一方、大規模言語モデル（LLM）の発展により、人間の「役割」を言語上で与える（いわゆる「ロールプレイ」）と、高度な知識を統合したり、協調的なタスクをこなしたりできる可能性が示されています。こうした背景を踏まえ、本論文では複数のLLMエージェントを活用し、
要件分析や設計の段階では自然言語を用いて話し合う
コード実装やバグ修正の段階ではプログラミング言語を用いて議論する

といったかたちで、ソフトウェア開発工程そのものを言語ベースのコミュニケーションで繋ぐ枠組み「ChatDev」を提案しています。

 2. ChatDevの概要
 2.1 マルチエージェントと「Chat Chain」本研究ではソフトウェア開発を、
設計 (Design)
コーディング (Coding)

テスト (Testing)

といった段階に大きく分割し、それぞれの段階をさらに小さなサブタスクに分解して、複数のエージェントが会話しながら開発を進めていきます。
Chat Chain

この枠組みでは、各段階(フェーズ)をさらに「サブタスクの連鎖 (Chain)」として扱い、必要に応じて複数回のやりとりを行います。具体的には、あるサブタスクにおける出力が次のサブタスクの入力に渡される、いわば「段階的処理」のような形で、最終的に完成したコードや設計書を出力する設計です。
エージェントと役割

各サブタスクでは、役割を付与された2種類のエージェント（例：「CEO」と「CTO」、「プログラマ」と「レビュア」、「テスター」など）が「指示(Instructor)」と「回答(Assistant)」を繰り返す形式で対話します。例えば「CTO(Instructor)」が設計に関する問いや要件を出し、「プログラマ(Assistant)」が答える、といった形です。

 2.2 Communicative Dehallucination大規模言語モデルには「幻覚 (Hallucination)」と呼ばれる、事実誤りや不正確なコードの生成が問題として挙げられます。
ソフトウェア開発では、コードの細かな部分が誤っていると実行エラーや機能不備などに直結しやすいため、そうした幻覚的なコード生成への対処が不可欠です。
ChatDevでは、エージェントどうしの対話の中でやりとりを細分化し、不確かな箇所があればまず追加情報を再度問いただくなどの工夫（Communicative Dehallucination）を導入しています。具体的には、
エージェントが指示を受けたとき、いきなり「最終回答」を出さず、不明点を逆質問して要件を追加で明確化する
そのやりとりを経て、コードや設定の細かな箇所を修正・調整していく

という段階的プロセスにより、曖昧な箇所の早期発見と修正を図っています。

 3. 実験と評価論文では、ソフトウェア要求のデータセット（SRDD）を独自に作成し、ChatDevや他のLLMベース自動生成手法との比較実験を行っています。下記のような観点から評価を行い、ChatDevの有効性を示しました。
Completeness

コードの「未実装箇所やプレースホルダがないか」を測定。コードの破片で終わらずに、全体がしっかり完成しているかを確認します。
Executability

実際にコンパイル・実行できるかどうかを測定します。大規模言語モデル由来のコード生成は、しばしば構文エラーや依存関係の欠如を含むため、それをどれだけ抑制できるかが大事です。
Consistency

ソフトウェア要求と生成されたコードがどの程度対応しているか、テキスト埋め込みの類似度などで測定します。
Quality

上記3つを総合した指標として定義し、最終的なコード完成度の総合評価としています。
これらの指標において、ChatDevはシングルエージェント型のGPT-Engineerや、複数エージェント協調型だが人為的にステップを固定したMetaGPTよりも優れた結果を示しました。特に「複数ラウンドのやりとり」を通じてバグ修正や機能追加を自律的に行える点が評価されています。

 4. ChatDevの特徴と意義開発プロセスを言語のやりとりで一貫化

以前の手法では、自然言語での要件定義とプログラミング言語による実装・テストが分断されていました。ChatDevでは「チャット」というスタイルで設計も実装も一つながりにし、エージェント同士の協調をスムーズにします。
複数のLLMエージェントによる役割分担

要件分析やテストなど異なるフェーズに強いエージェントを定義し、段階ごとに担当させることで、工程全体の最適化やエラー修正の精度向上を狙っています。
段階的なバグ修正・機能追加

Communicative Dehallucinationの仕組みにより、不完全なコードや実行エラーを早期発見し、自然言語の質疑応答を通じて修正・洗練を繰り返せる点が特徴的です。
今後の展開

まだ実用面で見ると、エッジケースや大規模なソフトウェア要件への対応、さらに厳密な自動テスト評価など多くの課題があります。一方で、プロトタイプ構築などでは大きな利点をもたらす可能性があり、今後の拡張と実運用が期待されます。

 5. まとめ「ChatDev: Communicative Agents for Software Development」は、大規模言語モデルを複数のエージェントという形で役割分担させ、ソフトウェア開発全体を通じて対話的に最適化していくフレームワークを提案する研究です。これにより、単にコード断片を生成するだけでなく、要件分析から実装、テストまでを一貫して自律的に行い、段階的に修正・ブラッシュアップできる点が大きな特徴といえます。
特に、
「Chat Chain」による多段階かつ段階的な自然言語とコードによるやりとり
「Communicative Dehallucination」による曖昧さ解消・バグ修正の自動化
役割を付与した複数エージェント協調による多面的なソフトウェア品質向上

といったポイントが、既存の自動コード生成や機械学習を用いた開発支援手法と比べて新規性・優位性があるとされています。
もっとも、本手法がすべての現実的なソフトウェア開発ケースを即座に代替できるわけではありませんが、LLMエージェントを工程全体にわたって活用する新しい可能性を示唆しており、今後の大規模ソフトウェア開発の自動化・支援の研究分野において大きな一歩となる内容です。

 所感ロールを割り当てたAIBot同士の会話から生成物の品質を上げようという試み。
読んでるだけでトークンが消費されていきそう。
GitHubでリポジトリが公開されてるみたいだし、環境作って試してみよう。
商用利用は不可となってるけど、ウチのCTOに紹介してみても面白そう。
これGather.townと連結できねえかな