Open1

何でも出来すぎてしまうブラウザ操作型Agentアプリ: microsoft/magentic-ui について

vArvAr

Magentic-UIとは

2025年5月19日にMicrosoftが突如Public ReleaseしたWebアプリケーション。
https://github.com/microsoft/magentic-ui

MAGUI-logo

クラウドサービスではなく、ローカルで動くセルフホスト型。

OpenAIやAzure OpenAIのAPIキーを入力して使ったり、OllamaなどのローカルLLMを使う、最近よくあるタイプのLLMプロダクト。

Magentic-UIで何ができるのか?

  • Web上でのアクションの閲覧と実行(つまりBrowser-Use)
  • コードの生成と実行
  • ファイルの生成と分析

同Microsoft社のAutoGenは、世のマルチエージェントフレームワークのなかで一二を争う有名ライブラリなので、LLMアプリ開発者なら触ったことがある人も少なくないかと思われる。

https://github.com/microsoft/autogen

autogen-image

このAutoGenは、様々なToolを与えたAgentが自律的に動く「マルチエージェント」をローコードPythonでガチャガチャ組み上げられるフレームワークなわけだが、

その中で一つだけ異質な、Magentic-Oneという定義済Agentを使用することができる。

https://microsoft.github.io/autogen/dev/user-guide/agentchat-user-guide/magentic-one.html

ざっくり説明すると、"Orchestrator"という「プランニングして、Agent達に命令するAgent」が中心となり、ブラウザ操作AgentコーディングAgentなどを使ってタスクを完遂するまで動き続けるAgentだ。

2025年1月にOpenAIが提供開始したOperatorというブラウザ自動操作型Agentがあるが、要はあれみたいなことができる。
(たった数か月前に大きく騒がれた目玉機能のはずなのに、もはや誰も話題にしていない……。LLMサービスの異常なまでの進歩の速さを実感する)

そしてイメージ通り、Magentic-Oneはかなり危険なことができてしまうAgentでもある。

たとえばローカルPC内のファイルを吹き飛ばすことも、Amazonでお買い物100万円分の決済も(もしかしたら)出来てしまうかもしれない。

前者はDockerなどのコンテナ内で動かすことで、後者は人間の承認ステップを経由することで回避できる。

そしてこのMagentic-UIは、一行のmagentic uiコマンドを実行するだけで、安全に隔離されたDockerコンテナが起動し、承認する人間が分かりやすいフロントエンドを起動してくれる

つまり、従来の"Magentic-One in AutoGen"を使い始める上でいろいろ準備必須だったところを、コマンド一発でよしなにセットアップしてくれるのが、このMagentic-UIということになる。

セットアップ

動かしてみる