🦁

Browser-useでollamaを使ってローカルLLMを使用する

2025/01/12に公開

はじめに

本記事では、browser-useのweb-ui上でollamaを選択することでローカルLLMを活用します。
2025/1/12現在、browser-useのweb-uiにおけるLLM Providerでは、anthropic、openai、deepseek、gemini、ollama、azure_openaiが選択できるようになっています。
ollamaを使う場合は、API料金が発生せず、ローカルで色々と試せます。

本記事では、browser-useのweb-ui上でollamaを選択し、browser-useを活用していきます。

browser-useとは?

browser-useは、ブラウザの自動的な操作をAIエージェントを活用して行うライブラリです。

https://github.com/browser-use/browser-use

browser-useの公式リポジトリのexamplesに様々な使い方が紹介されています。

https://github.com/browser-use/browser-use/tree/main/examples

browser-use web-ui

browser-use web-uiを使うと、Web画面から、browser-useを操作できます。

https://github.com/browser-use/web-ui

リポジトリをcloneしてきます。

git clone git@github.com:browser-use/web-ui.git

Python3.11 or それ以降のバージョンが必要です。
Python仮想環境を作り、必要なパッケージ等をインストールします。

pyenv install 3.11
pyenv local 3.11
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
playwright install

環境変数を設定します。

cp .env.example .env

webuiを起動します。

python webui.py --ip 127.0.0.1 --port 7788

http://127.0.0.1:7788/ へアクセスすると、Browser Use WebUIの画面が表示されます。

ollamaを選択することでローカルLLMを使う

ollamaをダウンロード

まずは、ollamaをダウンロードします。

その後、ollamaをインストールします。

ollamaモデルから必要なモデルをインストール

次に、ollamaモデルから必要なモデルをインストールします。
2025/1/12現在、browser-use web-uiでは、LLM Providerにollamaを選択した場合、Model名には、「qwen2.5:7b」と「llama2:7b」が選択可能です。
また、Model名は自由に書き換えが可能なので、任意のモデルを利用することができます。

それぞれのモデルをインストールしておきます。

ollama run qwen2.5:7b
ollama run llama2:7b

https://ollama.com/library/qwen2.5:7b
https://ollama.com/library/llama2:7b

browser-use web-uiの設定

http://127.0.0.1:7788/ へアクセスします。

LLM ConfigurationタブのLLM Providerを「ollama」を選択、Model Nameを「llama2:7b」を選択します。

また、Base URLには、ollamaのエンドポイントとして、http://127.0.0.1:11434 を記載しました。

Agent Settingsは、「Use Vision」と「Use Tool Calls in Content」のチェックは外しました。

その後、Run AgentのタブのTask Descriptionに任意の説明を記載して、Run Agentで実行します。

実用例

Googleへアクセスし、"OpenAI"で検索した最初のURLを取得

最初は、browser-use web-uiを開いた時のデフォルトで入っている説明を使います。

Run AgentのタブのTask Descriptionには以下を記載します。

go to google.com and type 'OpenAI' click search and give me the first url

いずれも、OpenAIのgpt-4oを使う場合と比べると、時間はかかりました。
今回の場合、約10分〜20分程度かかりました。

  • llama2:7b だと、Step5まで進みましたが、失敗しました。
  • qwen2.5:7b だと、Step4まで進みましたが、失敗しました。

だいぶ動作に時間がかかるので、他のモデルで試してみます。

gemma:2bをollamaでインストールします。

ollama run gemma:2b 

LLM ConfigurationタブのLLM Providerを「ollama」を選択、Model Nameを「gemma:2b」と入力しました。

動作は1つのStepごとに30秒から1分程度になりましたが、タスクを解くのは失敗しました。

おわりに

本記事では、browser-useのweb-ui上でollamaを選択することでローカルLLMを活用する方法を紹介しました。
ローカルLLMを活用することで、API利用にかかるコストを削減しつつ、ブラウザ自動化を試すことができます。
今回は、うまくタスクを解くことができませんでしたが、ollamaを使ってローカルLLMを活用できることは確かめることができました。

最後までお読み頂きありがとうございました。本記事が参考になれば、幸いです。

GitHubで編集を提案

Discussion