Zenn
🦊

ComfyGPT:自己最適化マルチエージェントによるComfyUIワークフロー自動生成の革新

2025/03/28に公開

ComfyGPT:自己最適化マルチエージェントによるComfyUIワークフロー自動生成の革新

この記事は以下の論文をもとに書かれています。
https://arxiv.org/abs/2503.17671v1

TL;DR

ComfyGPTは、ユーザーの指示に基づいてComfyUIワークフローを自動生成する初の自己最適化マルチエージェントシステム。個々のノードリンクに焦点を当て、教師あり学習と強化学習を組み合わせることで、複雑なワークフロー生成の精度を大幅に向上させている。13,571件のワークフローデータセットと包括的な評価ベンチマークにより、既存のLLMベースの手法を大きく上回る性能を実現。

はじめに:ComfyUIの可能性と課題

最近、AIによる画像生成技術が急速に進化し、テキストからの画像生成、画像編集、ビデオ生成など、様々な創作活動が可能になりました。その中でもComfyUIは、ノードベースのインターフェースを通じて、ユーザーが複雑な画像生成タスクをカスタマイズできる強力なツールとして注目されています。

しかし、ComfyUIの持つ可能性の裏には、大きな課題も存在します。ノード間の複雑な接続や多様なモジュールは、初心者ユーザーにとって急な学習曲線となることが多いのです。私自身、最初にComfyUIを触った時は、「これは一体何から手をつければいいんだ...」と途方に暮れた経験があります。

そんな中、最近発表されたComfyGPTという研究が、この問題に対する革新的な解決策を提案しています。ComfyGPTは、ユーザーの指示に基づいてComfyUIワークフローを自動的に生成する、初の自己最適化マルチエージェントシステムです。今回は、この興味深い研究について掘り下げてみたいと思います。

ComfyGPTとは何か?

ComfyGPTは、タスク記述に基づいてComfyUIワークフローを自動的に生成するように設計された、自己最適化マルチエージェントシステムです。従来のアプローチとは異なり、ComfyGPTはワークフロー全体を一度に生成するのではなく、個々のノードリンクの生成に焦点を当てることで、生成精度を大幅に向上させています。

ComfyGPTの主な革新点は以下の2つです:

  1. ノードリンク生成に焦点を当てる:ワークフロー全体ではなく、処理ノード間の個々のリンク接続の生成に焦点を当てることで、LLM(大規模言語モデル)がComfyUIの計算グラフにおける機能コンポーネント間の複雑な相互依存性を捉え、再現する能力を向上させています。

  2. 自己最適化マルチエージェントシステム:教師あり微調整(SFT)と強化学習(RL)を組み合わせることで、ワークフロー生成中の自律的なエラー修正を可能にし、以前の試行からのクローズドループ学習を通じて継続的な改善を実現しています。

ComfyGPTのアーキテクチャ

ComfyGPTは、4つの特化されたエージェントで構成されています:

  1. ReformatAgent:ComfyUIワークフロー(JSON形式)を構造化されたリンク形式に変換します。

  2. FlowAgent:タスク記述に基づいてワークフロー生成プロセスを管理します。教師あり微調整(SFT)とGRPO(Gradient Ratio Policy Optimization)アルゴリズムによる強化学習(RL)を組み合わせて、初期ワークフローの生成と自律的なエラー修正を可能にします。

  3. RefineAgent:LLMと知識検索機能を統合して、生成されたノードの二次的な検証と最適化を行い、トポロジーの一貫性を確保します。

  4. ExecuteAgent:検証されたワークフローをComfyUI互換のJSON形式に変換し、ComfyUIサーバーとのインターフェースをとります。

この構成により、ComfyGPTはユーザーの指示を理解し、適切なワークフローを生成し、検証し、実行することができます。

技術的詳細:数式で理解するComfyGPT

ComfyGPTの核心部分であるFlowAgentの学習には、教師あり微調整(SFT)と強化学習(RL)の両方が使用されています。

SFTの目的関数

JSFT(θ)=Edesc,dP(FD)t=1dlogπθ(dt=idesc,d<t)J_{SFT}(\theta) = \mathbb{E}_{desc, d \sim P(FD)} \sum_{t=1}^{|d|} \log \pi_{\theta}(d_{t} = i \mid desc, d_{<t})

ここで、πθ\pi_{\theta} はFlowAgentの学習可能なバックボーン、descdesc はワークフロー記述、dd はワークフロー図を示します。

GRPOの目的関数

E[descP(FD),{di}i=1Gπθold(Ddesc)]1Gi=1Gt=1dimin(πθ(di,tdesc,di,<t)πθold(di,tdesc,di,<t),clip(πθ(di,tdesc,di,<t)πθold(di,tdesc,di,<t),1ϵ,1+ϵ))Ai,tβDKL[πθπref]\mathbb{E}[desc \sim P(FD), \{d_{i}\}_{i=1}^{G} \sim \pi_{\theta_{old}}(D \mid desc)] \frac{1}{G} \sum_{i=1}^{G} \sum_{t=1}^{|d_{i}|} \min \left(\frac{\pi_{\theta}(d_{i,t} \mid desc, d_{i,<t})}{\pi_{\theta_{old}}(d_{i,t} \mid desc, d_{i,<t})}, clip\left(\frac{\pi_{\theta}(d_{i,t} \mid desc, d_{i,<t})}{\pi_{\theta_{old}}(d_{i,t} \mid desc, d_{i,<t})}, 1-\epsilon, 1+\epsilon\right)\right) A_{i,t} - \beta D_{KL}[\pi_{\theta} \| \pi_{ref}]

ここで、πθ\pi_{\theta}πθold\pi_{\theta_{old}} はそれぞれ現在のポリシーモデルと古いポリシーモデルを示します。Ai,tA_{i,t} は相対的な報酬に基づいて計算されたアドバンテージであり、以下の式で表されます。

Ai,t=rimean(r)std(r)A_{i,t} = \frac{r_{i} - mean(r)}{std(r)}

ここで、rr は提案された報酬モデルであり、ノード名がノードのコレクション NTN_T に存在するかどうかに基づいて定義されます。

ノード間の類似度計算

RefineAgentでは、ノード間の類似度を計算するために以下の式が使用されます:

s(ni,nj)=eiejeiejs(n_i, n_j) = \frac{e_i e_j}{\|e_i\| \|e_j\|}

ここで、eie_ieje_j はそれぞれノード nin_injn_j の埋め込みベクトルを表します。

これらの数式は、ComfyGPTがどのようにして高精度なワークフロー生成を実現しているかを示しています。特に、GRPOアルゴリズムを用いた強化学習により、生成されたワークフローの自己修正が可能になっています。

FlowDatasetとFlowBench:評価のための基盤

ComfyGPTのトレーニングと評価を容易にするために、研究者たちは以下の2つのリソースを導入しています:

  1. FlowDataset:13,571個のワークフローと説明文のペアを含む大規模データセット。6つの主要カテゴリ(テキストから画像生成、画像編集、スタイル変換、3D生成、ビデオ編集/生成、その他)と6つのサブカテゴリに分類されています。

  2. FlowBench:ワークフロー生成システムの体系的な評価のための包括的なベンチマーク。ノードの複雑さ、ワークフローの多様性、およびタスクの範囲において既存のベンチマークを上回ります。

また、ComfyGPTを評価するために、以下の4つの新しい評価指標が提案されています:

  • Format Validation (FV):生成されたワークフローの形式が有効かどうかを判断する初期チェック
  • Pass Accuracy (PA):ComfyUIサーバーによって正常に実行できる生成されたワークフローの割合
  • Pass Instruct Alignment (PIA):正常に実行されたワークフローがユーザーの指示にどの程度合致しているか
  • Pass Node Diversity (PND):正常に実行された生成されたワークフロー内の異なるタイプのノードの総数

これらの評価指標により、ComfyGPTの性能を多角的に評価することが可能になっています。

実験結果:ComfyGPTの優位性

実験結果は、ComfyGPTが既存のLLMベースの手法を大幅に上回ることを示しています。特に、以下の点で優れた性能を発揮しています:

  1. 高い生成精度:個々のノードリンクに焦点を当てることで、複雑なワークフローの生成精度が向上
  2. 自己修正能力:強化学習を用いることで、エラーを自律的に修正し、継続的に改善
  3. 多様なタスクへの対応:テキストから画像生成、画像編集、スタイル変換など、様々なタスクに対応するワークフローを生成可能

これらの結果は、ComfyGPTがComfyUIの学習曲線を緩和し、より多くのユーザーが高度な画像生成タスクにアクセスできるようにする可能性を示しています。

ComfyGPTの限界と今後の展望

ComfyGPTは革新的なシステムですが、いくつかの限界も存在します。例えば、トレーニングデータの古さやFlowAgentによる架空のエントリにより、一部のノードが不正確になる可能性があります。また、現在のシステムは主に画像生成タスクに焦点を当てており、他の領域への応用はまだ限られています。

今後の研究では、以下の方向性が考えられます:

  1. より広範なタスクへの対応:3D生成、ビデオ編集など、より多様なタスクに対応するワークフロー生成の改善
  2. リアルタイムフィードバック:ユーザーからのフィードバックをリアルタイムで取り入れ、ワークフローを改善するメカニズムの開発
  3. マルチモーダル入力の活用:テキスト指示だけでなく、画像や音声などの入力も活用したワークフロー生成

まとめ

ComfyGPTは、ComfyUIワークフローを自動生成するための革新的なマルチエージェントシステムです。個々のノードリンクに焦点を当て、教師あり学習と強化学習を組み合わせることで、複雑なワークフロー生成の精度を大幅に向上させています。

この研究は、AIによる創作支援ツールの可能性を広げるものであり、技術的な障壁を低減することで、より多くの人々が高度な画像生成技術にアクセスできるようになることが期待されます。

私自身、ComfyUIの複雑さに悩まされた経験があるので、ComfyGPTのようなシステムが実用化されれば、クリエイティブな作業がより効率的かつ直感的になるだろうと感じています。AIが単なる生成ツールではなく、創作プロセス全体をサポートするパートナーとなる未来が、少しずつ近づいているのかもしれません。

以上。

CryptoAI, Inc.

Discussion

ログインするとコメントできます