『browser-use-webui』で始めるブラウザ操作の自動化入門
はじめに
本記事では、AIエージェントを活用してブラウザ操作を自動化するツール 「browser-use-webui」 の概要と基本的な使い方を説明します。
繰り返しのブラウザ操作を減らす一手段として、セットアップ方法から簡単な使用例まで順を追って解説します。
browser-use-webuiの概要
レポジトリ
概要
browser-use-webui は、以下のような特徴を持つブラウザ操作自動化ツールです。
- シンプルな指示で動作: 「特定ページにアクセスして入力 → ボタンクリック → 結果取得」のような操作を、テキスト指示だけで実行できます。
- カスタマイズ可能: ブラウザやAIモデルの設定を柔軟に指定可能です。
- AIモデルとの連携: LLMを組み合わせることで、単純なクリック操作に加えて高度なテキスト解析や意思決定も期待できます。
環境のセットアップ
では早速、環境のセットアップをしてみましょう!
必要な前提条件
- Python 3.11以上(本記事では 3.12.5 を想定)
-
uv(または通常の
pip
でも可) - ブラウザ(Google Chrome推奨)
手順
-
仮想環境の作成
uv venv --python 3.12 .venv\Scripts\activate # Windowsの場合
LinuxやMacでは
source .venv/bin/activate
を使用します。 -
必要なパッケージのインストール
uv pip install browser-use playwright install uv pip install -r requirements.txt
-
環境変数の設定
.env.example
をコピーして.env
ファイルを作成し、必要なAPIキーやブラウザパスを設定します。 -
起動
python webui.py --ip 127.0.0.1 --port 7788
ブラウザから http://127.0.0.1:7788
へアクセスし、ツールが起動することを確認します。
基本操作の例 〜Google検索の自動化〜
例示タスク
Google検索を実行し、最初の検索結果のURLを取得します。手順は下記のとおりです。
- Googleへアクセス
- 指定のキーワードを入力
- 検索を実行
- 検索結果の最初のリンクURLを取得
サンプル
タスク: google.comにアクセスし、検索ボックスに「Zenn」と入力し、検索をクリックする。その後、ページ上の最初の検索結果のURLを返してください。
実行結果
実行すると、最初にヒットしたURLが表示されます。
実行時のログにはアクセス先や入力内容、クリックした要素などが記録されます。必要に応じてログを参照し、手順が期待通り進んでいるか確認してください。
運用のポイント
- できるだけ指示を明確にする: ページURL、入力内容、クリックすべき要素などを具体的に示すほど意図した結果が得られます。
- モデルやLLMを選ぶ: タスクの複雑さに合わせてLLMを選択し、精度や速度、コストを検討します。
- エラーに対する対応: 実行時にエラーが発生した場合はログの内容を確認し、セレクタやタイムアウトの設定を調整します。
これらのポイントを重視していただけると、よりよい運用を目指していけると思います。
応用例
職種によって異なるとは思いますが・・・このようなイメージです。
- フォーム入力の自動化: 大量データの繰り返し入力を短縮できます。
- 多段階操作: 複数ページをまたいだ連続操作や情報収集にも対応可能です。
- スクリーンショットの保存: テスト結果や画面確認用に自動キャプチャを残せます。
など、さまざま日常における作業の自動化が考えられるかなと思います。
まとめ
browser-use-webui は環境構築さえしてしまえば非エンジニアに対しても日常的なブラウザ操作を自動化するための有用なツールです。
Python環境とAPIキーが整っていれば、インストールと設定は比較的簡単だと思います。
Google検索の例に限らず、フォーム入力や複数画面の連携操作など、多様な場面での利用を検討できそうです。
反復的なWeb操作の負担を減らす一助として、導入を検討してみていただければと思います。
(DeepSeek V3が使えるとの話もあるので、API利用料金を下げたい方はそちらを見ていただくのもいいかもしれないですね・・・!)
私が代表を務める エクステム株式会社 では、このようなAIエージェントに関する研修やコンサルティングを行っています。
もしご興味のある企業さま、個人の方はぜひお問い合わせくださいませ。
Discussion