Browser-useでollamaを使ってローカルLLMを使用する
はじめに
本記事では、browser-useのweb-ui上でollamaを選択することでローカルLLMを活用します。
2025/1/12現在、browser-useのweb-uiにおけるLLM Providerでは、anthropic、openai、deepseek、gemini、ollama、azure_openaiが選択できるようになっています。
ollamaを使う場合は、API料金が発生せず、ローカルで色々と試せます。
本記事では、browser-useのweb-ui上でollamaを選択し、browser-useを活用していきます。
browser-useとは?
browser-useは、ブラウザの自動的な操作をAIエージェントを活用して行うライブラリです。
browser-useの公式リポジトリのexamplesに様々な使い方が紹介されています。
browser-use web-ui
browser-use web-uiを使うと、Web画面から、browser-useを操作できます。
リポジトリをcloneしてきます。
git clone git@github.com:browser-use/web-ui.git
Python3.11 or それ以降のバージョンが必要です。
Python仮想環境を作り、必要なパッケージ等をインストールします。
pyenv install 3.11
pyenv local 3.11
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
playwright install
環境変数を設定します。
cp .env.example .env
webuiを起動します。
python webui.py --ip 127.0.0.1 --port 7788
http://127.0.0.1:7788/ へアクセスすると、Browser Use WebUIの画面が表示されます。
ollamaを選択することでローカルLLMを使う
ollamaをダウンロード
まずは、ollamaをダウンロードします。
その後、ollamaをインストールします。
ollamaモデルから必要なモデルをインストール
次に、ollamaモデルから必要なモデルをインストールします。
2025/1/12現在、browser-use web-uiでは、LLM Providerにollamaを選択した場合、Model名には、「qwen2.5:7b」と「llama2:7b」が選択可能です。
また、Model名は自由に書き換えが可能なので、任意のモデルを利用することができます。
それぞれのモデルをインストールしておきます。
ollama run qwen2.5:7b
ollama run llama2:7b
browser-use web-uiの設定
http://127.0.0.1:7788/ へアクセスします。
LLM ConfigurationタブのLLM Providerを「ollama」を選択、Model Nameを「llama2:7b」を選択します。
また、Base URLには、ollamaのエンドポイントとして、http://127.0.0.1:11434 を記載しました。
Agent Settingsは、「Use Vision」と「Use Tool Calls in Content」のチェックは外しました。
その後、Run AgentのタブのTask Descriptionに任意の説明を記載して、Run Agentで実行します。
実用例
Googleへアクセスし、"OpenAI"で検索した最初のURLを取得
最初は、browser-use web-uiを開いた時のデフォルトで入っている説明を使います。
Run AgentのタブのTask Descriptionには以下を記載します。
go to google.com and type 'OpenAI' click search and give me the first url
いずれも、OpenAIのgpt-4o
を使う場合と比べると、時間はかかりました。
今回の場合、約10分〜20分程度かかりました。
-
llama2:7b
だと、Step5まで進みましたが、失敗しました。 -
qwen2.5:7b
だと、Step4まで進みましたが、失敗しました。
だいぶ動作に時間がかかるので、他のモデルで試してみます。
gemma:2bをollamaでインストールします。
ollama run gemma:2b
LLM ConfigurationタブのLLM Providerを「ollama」を選択、Model Nameを「gemma:2b」と入力しました。
動作は1つのStepごとに30秒から1分程度になりましたが、タスクを解くのは失敗しました。
おわりに
本記事では、browser-useのweb-ui上でollamaを選択することでローカルLLMを活用する方法を紹介しました。
ローカルLLMを活用することで、API利用にかかるコストを削減しつつ、ブラウザ自動化を試すことができます。
今回は、うまくタスクを解くことができませんでしたが、ollamaを使ってローカルLLMを活用できることは確かめることができました。
最後までお読み頂きありがとうございました。本記事が参考になれば、幸いです。
Discussion