何でも出来すぎてしまうブラウザ操作型Agentアプリ: microsoft/magentic-ui について

Magentic-UIとは
2025年5月19日にMicrosoftが突如Public ReleaseしたWebアプリケーション。
クラウドサービスではなく、ローカルで動くセルフホスト型。
OpenAIやAzure OpenAIのAPIキーを入力して使ったり、OllamaなどのローカルLLMを使う、最近よくあるタイプのLLMプロダクト。
Magentic-UIで何ができるのか?
- Web上でのアクションの閲覧と実行(つまりBrowser-Use)
- コードの生成と実行
- ファイルの生成と分析
同Microsoft社のAutoGenは、世のマルチエージェントフレームワークのなかで一二を争う有名ライブラリなので、LLMアプリ開発者なら触ったことがある人も少なくないかと思われる。
このAutoGenは、様々なToolを与えたAgentが自律的に動く「マルチエージェント」をローコードPythonでガチャガチャ組み上げられるフレームワークなわけだが、
その中で一つだけ異質な、Magentic-Oneという定義済Agentを使用することができる。
ざっくり説明すると、"Orchestrator"という「プランニングして、Agent達に命令するAgent」が中心となり、ブラウザ操作AgentやコーディングAgentなどを使ってタスクを完遂するまで動き続けるAgentだ。
2025年1月にOpenAIが提供開始したOperatorというブラウザ自動操作型Agentがあるが、要はあれみたいなことができる。
(たった数か月前に大きく騒がれた目玉機能のはずなのに、もはや誰も話題にしていない……。LLMサービスの異常なまでの進歩の速さを実感する)
そしてイメージ通り、Magentic-Oneはかなり危険なことができてしまうAgentでもある。
たとえばローカルPC内のファイルを吹き飛ばすことも、Amazonでお買い物100万円分の決済も(もしかしたら)出来てしまうかもしれない。
前者はDockerなどのコンテナ内で動かすことで、後者は人間の承認ステップを経由することで回避できる。
そしてこのMagentic-UIは、一行のmagentic ui
コマンドを実行するだけで、安全に隔離されたDockerコンテナが起動し、承認する人間が分かりやすいフロントエンドを起動してくれる。
つまり、従来の"Magentic-One in AutoGen"を使い始める上でいろいろ準備必須だったところを、コマンド一発でよしなにセットアップしてくれるのが、このMagentic-UIということになる。