🤖

エージェントは実用的なのか?安定性は?ROIは? Difyで構築するプロダクションレベルのAgentic Workflowの解説記事

に公開

2025魔搭社区开发者大会-Agent&MCP论坛-话题地图
2025 Modaコミュニティ開発者会議 - エージェント&MCPフォーラム (要自動翻訳)
というイベントにてDifyの今後も含む発表がありました。
Difyのオープンソースエコシステム責任者であるZheng Li氏が登壇し、Agentic AIの新たなパラダイムについて語った。
本記事では、その発表内容を要約し、Difyが目指す未来を紐解いていく。
https://modelscope.cn/studios/hicicada/topic
https://www.bilibili.com/video/BV1R23TzWELL/

世界の主要企業が信頼するプラットフォーム

導入企業一覧

Difyの実用性は、世界各国の主要企業による採用実績が物語っている。VOLVO、Panasonic、Infineon、Yum!、ANKER、Deloitte、Thermo Fisher Scientificといったグローバル企業から、MAERSK、NOVARTIS、GLENCOREなどの業界リーダー、さらにはGovTech東京といった日本の重要な組織まで、幅広い業界でDifyが活用されている。

これらの企業は単なる実験的な導入ではなく、実際のビジネス価値を創出するためにDifyを選択している。各企業の内部では数千ものワークフローが稼働し、社内業務の効率化だけでなく、顧客向けサービスの基盤としても機能している。この実績は、Difyが提供する技術的な安定性と実用性の証明である。

MLOpsからLLMOpsへ:パラダイムシフトの本質

MLOps vs LLMOps

従来のMLOpsから大規模言語モデルのLLMOpsへの移行は、単なる技術的な進歩以上の意味を持つ。この変化は「発見」「開発」「展開」の3つの段階で劇的な改善をもたらしている。

従来のMLOpsでは、特定のモデルのファインチューニングやデータアノテーションに膨大なコストがかかった。医療分野を例に取ると、1つのケースに20ドルから100ドル、データ校正には1時間あたり50ドルという高額な費用が必要だった。これでは小さなアイデアを検証するだけでも多額の投資が必要となり、イノベーションの障壁となっていた。

一方、LLMOpsでは実際の効果を迅速に検証できる。MVPを素早く作成し、ビジネスロジックと価値を低コストで検証することが可能になった。この変化により、開発の焦点は明確な効果の実証から、アイデアの迅速な検証へとシフトしている。

展開段階においても、スピードが決定的な要因となる。市場で優位に立つためには、迅速な対応が不可欠であり、LLMOpsはこの要求に応える技術基盤を提供している。

エージェントAI構築の5つの核心要素

エージェント構築の要素

Difyが提唱するエージェントAI構築には、5つの核心要素が存在する。これらの要素は相互に連携し、実用的なAIシステムを形成する基盤となっている。

大規模言語モデルは、エージェントの知的能力の源泉である。しかし、モデル単体では実用的なシステムにはならない。ここにワークフローが重要な役割を果たす。ワークフローは、モデルの能力を構造化し、予測可能で信頼性の高い処理を実現する。

RAGは、エージェントが外部知識にアクセスする手段を提供する。従来のナイーブRAGから、エージェント型RAG、さらにはDifyが開発中のRAGパイプラインまで、知識統合の手法は急速に進化している。

ツールは、エージェントが現実世界と相互作用する能力を決定する。MCPプロトコルやプラグインシステムを通じて、エージェントは様々な外部システムと連携できる。

マーケットプレイスは、エコシステムの形成において決定的な要素である。プラットフォームの成功は、その生態系の豊かさに依存する。優れたツールやプラグインが豊富に存在することで、ユーザーは多様なニーズに対応できる。

最後にトレーシングは、システムの品質管理に不可欠である。大規模言語モデルの出力品質を評価し、処理チェーンの最適化ポイントを特定するために、包括的な監視機能が必要となる。

従来のエージェントが抱える根本的課題

従来エージェントの課題

汎用的なAIエージェントには、実用化を阻む深刻な課題が存在する。最も顕著な問題は、ツールの適切な使用ができない、回答に満足できない、特定のツールを優先的に呼び出したいといった不確実性である。

特に興味深い事例が、DeepSeek R1の扱いである。このモデルはツール利用をネイティブにサポートしていないが、DifyではReact戦略を用いてツール呼び出しを実現している。これは、Difyが行った工学的最適化の成果であり、モデル自体のfunction call機能に依存しない柔軟なアプローチを示している。

しかし、汎用エージェントでは実現したい機能のすべてを満たすことは困難である。この現実が、エージェントとワークフローのどちらを選択すべきかという根本的な問題を提起している。

エージェント vs ワークフロー:信頼性とAI化のトレードオフ

エージェント vs ワークフロー比較

この問題を理解するために、Difyが提示するグラフは極めて示唆に富んでいる。横軸はハードコードからAIへの移行度合い、縦軸は信頼性を表している。

青い線はDifyのようなワークフロー製品の特性を示し、赤い線はMemriseのようなエージェント製品の特性を表している。そして点線は、人々の期待を表している。

人々は「コードを書かずに高い信頼性を得たい」と期待している。しかし、現実にはこの期待と実際の技術能力の間には大きなギャップが存在する。将来的にはこれらの線が交わる可能性があるが、現時点では、ワークフローが安定した選択肢として優位性を保っている。

この分析は、技術選択における重要な洞察を提供している。完全自動化への憧れは理解できるが、実用性と信頼性を重視するならば、適度な構造化が必要である。

RAGの進化:従来型からエージェント型、そしてパイプライン型へ

RAGの進化

RAG技術の進化は、エージェントAIの実用化において重要な要素である。従来のナイーブRAGは、ドキュメントを分割し、埋め込み、クリーニングして大規模言語モデルに渡すという単純なアプローチだった。

エージェントRAGでは、LLMを繰り返し呼び出してデータセットをクリーニングし、ツールを活用してベクターデータベースに情報を格納する。一方、Advanced RAGは、リランキングやハイブリッド検索などの工学的手法を組み合わせたアプローチである。

しかし、これらの手法はそれぞれ特定の問題を解決するものであり、すべての課題に対応できるわけではない。この限界を克服するために、DifyはRAGパイプラインとエージェントワークフローの開発を進めている。

RAGパイプラインは、今後2四半期以内にリリース予定の機能で、OCRツールなどを使ってドキュメント内の画像や数式をクリーニングし、知識ベースに保存する。これにより、従来のテキストのみの処理から、画像を含む包括的なドキュメント処理が可能になる。

エージェントワークフローは既に提供されており、複数のエージェントノードを組み合わせることでマルチエージェントシステムを構築できる。ワークフローをツールとして公開し、エージェントがそれを呼び出すことも可能で、柔軟性と実用性を両立している。

プラグインアーキテクチャの革新:分離による柔軟性の実現

新アーキテクチャ

Dify 1.0以前の課題は明確だった。新しいモデルをリリースするたびに新しいバージョンをリリースする必要があり、すべてのツールとプラグインがメインリポジトリに含まれていた。この構造では、迅速な機能追加は可能だったが、頻繁なアップデートが避けられなかった。

さらに、社区版、クラウド版、企業版という3つの異なるバージョンが存在し、それぞれ異なるリリース戦略を持っていた。この複雑性により、新しいモデルやプロバイダーの追加は困難な作業となっていた。

新しいアーキテクチャでは、プラグインデーモンランタイムを分離することで、この問題を根本的に解決している。Lambdaベースの拡張可能な実行環境により、モデル、ツール、エージェント戦略を独立して実行できる。

エージェント戦略自体も、function call、React、対話式戦略など、すべてプラグインとして扱われる。これにより、新しい戦略を迅速にテストし、エージェントの効果を検証することが可能になった。

最も重要な利点は、誰もが自分のプラグインを作成し、マーケットプレイスで公開できることである。メインリポジトリの再コンパイルは不要で、プラグインリポジトリへのプルリクエストだけで新機能を追加できる。

MCPとツールエコシステム:統一プロトコルの可能性と限界

MCP説明

MCP(Model Context Protocol)は、異なるツールに対する統一されたプロトコルとして注目されている。このプロトコルの価値は、リソースの発見と呼び出しを容易にし、ツール提供者が同一の協定に従うことで、システムへの迅速な統合を可能にすることである。

しかし、MCPは万能薬ではない。function callを完全に置き換えるものでもなく、全自動でもない。実際の運用では、一定程度のカプセル化と工学的な配慮が必要である。

ソフトウェア工学の観点から見ると、MCPもA2A(Application-to-Application)も銀の弾丸ではない。これらのプロトコルは、適切に設計され、実装されたときに真価を発揮する。

Difyでは、2週間以内にMCPサポートをリリース予定である。ワークフローを直接MCPサーバーとして公開でき、他のエージェントからワークフローを呼び出すことが可能になる。また、既存のMCPサービスをツールとして直接追加することもできる。

実用事例:理論から実践への橋渡し

Case1

Difyの実用性は、具体的な事例によって証明されている。特に注目すべきは、日本のコミュニティユーザーが貢献したDeep Researchである。この事例は、Deep Searchがリリースされる数日前に、既にコミュニティによって複製されていたことを示している。

Case2

Browser UseやPlaywrightなどのツールは、エージェントが現実世界と相互作用する能力を提供する。これらのツールにより、エージェントはコンピューターやブラウザーを制御し、ウェブページから表形式の情報を取得したり、商品情報を収集したりできる。

case3

医療分野では、2つの興味深い事例がある。1つ目は「Sorting Hat」(ハリー・ポッターの組分け帽子にちなんで命名)と呼ばれる導診システムである。医療資源が不足している遠隔地域では、このようなエージェントが患者を適切な診療科に案内し、医療資源の効率的な配分を実現している。

2つ目は、コミュニティユーザーが貢献したSmart AIアシスタントである。医療機器メーカー向けに設計されたこのシステムは、患者監護装置の出荷時間、設備型番、製品説明書、使用文書などの情報をRAGを通じて提供する。

これらの事例は一見小さなものに見えるかもしれないが、実際の業務に落とし込める価値のあるソリューションである。

今後のロードマップ:継続的な進化への道筋

ロードマップ

Difyの今後の発展は、4つの主要な方向性で進められる。

MCPは、前述の通り2週間以内にリリース予定である。ワークフローをMCPサーバーとして公開し、他のエージェントから呼び出し可能にする機能が実装される。

RAG 2.0は、RAGパイプラインの実装を意味する。ワークフローの形式でデータ入庫プロセス全体を編成し、OCRツールを統合してPDFから画像や数式を抽出し、図文並茂(画像とテキストが組み合わされた)のソリューションを提供する。

Human-in-the-loopは、今後2四半期以内にリリース予定の機能である。第三者ツールのトリガーや審査プロセスの実装により、承認や拒否の判断を人間が行えるようになる。

Trigger機能は、コミュニティから強く要望されている機能である。n8nのような定時ワークフローの実現により、特定の時間にワークフローを実行したり、webhookによってワークフローをトリガーしたりできるようになる。

https://x.com/crazyphage/status/1942130761274155462

引用元

https://modelscope.cn/studios/hicicada/topic
https://www.bilibili.com/video/BV1R23TzWELL/
https://x.com/lyson_ober/status/1942129137381970097

Discussion