🖥️

browser-use-webuiで始めるブラウザ操作の自動化入門

2025/01/09に公開

 はじめに本記事では、AIエージェントを活用してブラウザ操作を自動化するツール 「browser-use-webui」 の概要と基本的な使い方を説明します。

繰り返しのブラウザ操作を減らす一手段として、セットアップ方法から簡単な使用例まで順を追って解説します。

 browser-use-webuiの概要
 レポジトリhttps://github.com/browser-use/web-ui

 概要browser-use-webui は、以下のような特徴を持つブラウザ操作自動化ツールです。

シンプルな指示で動作: 「特定ページにアクセスして入力 → ボタンクリック → 結果取得」のような操作を、テキスト指示だけで実行できます。

カスタマイズ可能: ブラウザやAIモデルの設定を柔軟に指定可能です。

AIモデルとの連携: LLMを組み合わせることで、単純なクリック操作に加えて高度なテキスト解析や意思決定も期待できます。

 環境のセットアップでは早速、環境のセットアップをしてみましょう！

 必要な前提条件
Python 3.11以上（本記事では 3.12.5 を想定）

uv（または通常の pip でも可）
ブラウザ（Google Chrome推奨）

 手順仮想環境の作成
uv venv --python 3.12
.venv\Scripts\activate  # Windowsの場合
LinuxやMacでは source .venv/bin/activate を使用します。
必要なパッケージのインストール
uv pip install browser-use
playwright install
uv pip install -r requirements.txt
環境変数の設定

.env.example をコピーして .env ファイルを作成し、必要なAPIキーやブラウザパスを設定します。
起動
python webui.py --ip 127.0.0.1 --port 7788
ブラウザから http://127.0.0.1:7788 へアクセスし、ツールが起動することを確認します。

 基本操作の例 〜Google検索の自動化〜
 例示タスクGoogle検索を実行し、最初の検索結果のURLを取得します。手順は下記のとおりです。
Googleへアクセス
指定のキーワードを入力
検索を実行
検索結果の最初のリンクURLを取得

 サンプルタスク: google.comにアクセスし、検索ボックスに「Zenn」と入力し、検索をクリックする。その後、ページ上の最初の検索結果のURLを返してください。

 実行結果実行すると、最初にヒットしたURLが表示されます。
実行時のログにはアクセス先や入力内容、クリックした要素などが記録されます。必要に応じてログを参照し、手順が期待通り進んでいるか確認してください。

 運用のポイント
できるだけ指示を明確にする: ページURL、入力内容、クリックすべき要素などを具体的に示すほど意図した結果が得られます。

モデルやLLMを選ぶ: タスクの複雑さに合わせてLLMを選択し、精度や速度、コストを検討します。

エラーに対する対応: 実行時にエラーが発生した場合はログの内容を確認し、セレクタやタイムアウトの設定を調整します。
これらのポイントを重視していただけると、よりよい運用を目指していけると思います。

 応用例職種によって異なるとは思いますが・・・このようなイメージです。

フォーム入力の自動化: 大量データの繰り返し入力を短縮できます。

多段階操作: 複数ページをまたいだ連続操作や情報収集にも対応可能です。

スクリーンショットの保存: テスト結果や画面確認用に自動キャプチャを残せます。
など、さまざま日常における作業の自動化が考えられるかなと思います。

 まとめbrowser-use-webui は環境構築さえしてしまえば非エンジニアに対しても日常的なブラウザ操作を自動化するための有用なツールです。

Python環境とAPIキーが整っていれば、インストールと設定は比較的簡単だと思います。

Google検索の例に限らず、フォーム入力や複数画面の連携操作など、多様な場面での利用を検討できそうです。

反復的なWeb操作の負担を減らす一助として、導入を検討してみていただければと思います。
（DeepSeek V3が使えるとの話もあるので、API利用料金を下げたい方はそちらを見ていただくのもいいかもしれないですね・・・！）
私が代表を務める エクステム株式会社 では、このようなAIエージェントに関する研修やコンサルティングを行っています。

もしご興味のある企業さま、個人の方はぜひお問い合わせくださいませ。

GitHubで編集を提案

browser-use-webuiで始めるブラウザ操作の自動化入門

はじめに

browser-use-webuiの概要

レポジトリ

概要

環境のセットアップ

必要な前提条件

手順

基本操作の例〜Google検索の自動化〜

例示タスク

サンプル

実行結果

運用のポイント

応用例

まとめ

Discussion

はじめに

browser-use-webuiの概要

レポジトリ

概要

環境のセットアップ

必要な前提条件

手順

基本操作の例 〜Google検索の自動化〜

例示タスク

サンプル

実行結果

運用のポイント

応用例

まとめ

Discussion

基本操作の例〜Google検索の自動化〜