GPT-4oを超える精度。ComfyUIの複雑なノード接続を“言葉”で自動化するLLM「ComfyUI-R1」とは
ComfyUI-R1は、画像生成プラットフォームComfyUIで必要となる複雑な「ノード接続」フローを、自然言語指示から自動合成する“推論特化”LLMです。7Bパラメータ規模ながら、従来はGPT-4oやClaude 3.5を使っても難しかったワークフロー生成タスクで実行成功率(ComfyBench Pass Rate)を+11 pt伸ばし、最も高い形式妥当性97 %とノード/グラフF1を達成しました。(arxiv.org, emergentmind.com) 以下では技術的要点、性能評価、導入手順、今後の可能性を整理します。
1. 背景と目的
ComfyUIはStable Diffusion系を中心とした画像生成ノードを自由に組み合わせる強力なGUIですが、数十〜数百種あるノード仕様を理解し有効なDAGを構築するには専門知識が不可欠でした。(github.com, docs.comfy.org) そこでComfyUI-R1は「ユーザ指示 →(Chain-of-Thought)→ 実行可能コード形式ワークフロー」という推論問題として再定式化し、初心者でもワンクリックで高品質パイプラインが得られる体験を狙います。(emergentmind.com, medium.com)
2. モデル設計と学習プロセス
2.1 データセット
- 4 k実行可能ワークフローをコミュニティ27 k件から抽出し、ノード列・JSON・Pythonライクコード・実行メタを付与。(emergentmind.com)
- ノード種は3 205種類、タスク多様性を確保した200命令で構成するComfyBenchで評価。(github.com, arxiv.org)
2.2 2段階学習
- CoT付きSFT: Qwen-2.5-Coder-7B-Instructをベースに、ノード選択→計画→コード生成の中間思考を明示的に学習。(arxiv.org, emergentmind.com)
- GRPO強化学習: 形式妥当性・構造整合性・ノード忠実度を組み合わせたハイブリッド報酬で長期推論を最適化。(arxiv.org, emergentmind.com)
2.3 コード表現の利点
ワークフローをPython関数呼び出しに落とし込むことで、LLMが構文制約を自然に満たしやすく、解釈性と実行性が両立。(emergentmind.com)
3. 性能比較
モデル | Format Valid | Node F1 | Graph F1 | Pass Rate* |
---|---|---|---|---|
GPT-4o (CoT) | 92 % | 0.50 | 0.29 | 56 % |
Claude 3.5 Sonnet | 97 % | 0.57 | 0.38 | – |
ComfyUI-R1 | 97 % | 0.62 | 0.51 | 67 % |
*ComfyBench Pass Rate。(emergentmind.com)
AblationでRL段階とコード表現の双方が+7〜10 ptの寄与を示しています。(arxiv.org)
4. 実務での使い方
-
ComfyUI Copilotプラグインをインストール(Alibaba open-sourceからDL)。(comfyui.org)
-
ComfyUIを起動し、Chat NodeまたはCopilotパネルで自然言語指示を入力。例:
“ネガティブプロンプトを加味し、512×768で水彩風ポートレートを生成”
-
R1がノード列Pythonコードを返し、自動でCanvasに展開→実行。(github.com)
-
生成されたコードはそのまま保存・編集可能で、上級者は微調整やサブグラフ化も容易。(docs.comfy.org)
5. 他アプローチとの位置づけ
- ComfyAgent: マルチエージェント+Retrievalで学習資料を探索しながら生成。長尺命令への柔軟性は高いがPass Rate 47 %。(github.com)
- CopilotノンLLM版: GUI操作支援中心で完全自動化には未対応。(comfyui.org)
- R1の強みは単一LLMによる即時応答とコード出力、弱みは未知ノード適応には追加SFTが必要な点。(emergentmind.com)
6. 今後の展望
- VLMフィードバック: 生成画像を視覚モデルで評価しRLするループで芸術的品質を向上させる研究が進行中。(emergentmind.com)
- ユーザ共同編集: 部分提案 ↔ 自動補完のハイブリッドUIが検討され、長期的にはノンデザイナー向けCMSのような役割も期待されます。(medium.com)
- Hugging Face公開: open-weight化を望む声が大きく、GitHub issueで議論中。(github.com)
まとめ
ComfyUI-R1は、ノード接続という専門作業を大幅に自動化し、7Bクラスながら商用大規模モデルを凌駕する推論精度を示しました。Chain-of-Thought+コード表現+報酬設計という組み合わせが鍵であり、画像生成だけでなく他のノードベースAIプラットフォーム(音声・動画・マルチモーダル)への波及が見込まれます。今後、視覚フィードバックやユーザ協調機能が統合されれば、より民主化されたクリエイティブAIエコシステムが実現するでしょう。
Discussion