🦁

Browser-useでollamaを使ってローカルLLMを使用する

2025/01/12に公開

 はじめに本記事では、browser-useのweb-ui上でollamaを選択することでローカルLLMを活用します。

2025/1/12現在、browser-useのweb-uiにおけるLLM Providerでは、anthropic、openai、deepseek、gemini、ollama、azure_openaiが選択できるようになっています。

ollamaを使う場合は、API料金が発生せず、ローカルで色々と試せます。
本記事では、browser-useのweb-ui上でollamaを選択し、browser-useを活用していきます。

 browser-useとは？browser-useは、ブラウザの自動的な操作をAIエージェントを活用して行うライブラリです。
https://github.com/browser-use/browser-use
browser-useの公式リポジトリのexamplesに様々な使い方が紹介されています。
https://github.com/browser-use/browser-use/tree/main/examples

 browser-use web-uibrowser-use web-uiを使うと、Web画面から、browser-useを操作できます。
https://github.com/browser-use/web-ui
リポジトリをcloneしてきます。
git clone git@github.com:browser-use/web-ui.git
Python3.11 or それ以降のバージョンが必要です。

Python仮想環境を作り、必要なパッケージ等をインストールします。
pyenv install 3.11
pyenv local 3.11
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
playwright install
環境変数を設定します。
cp .env.example .env
webuiを起動します。
python webui.py --ip 127.0.0.1 --port 7788
http://127.0.0.1:7788/ へアクセスすると、Browser Use WebUIの画面が表示されます。

 ollamaを選択することでローカルLLMを使う
 ollamaをダウンロードまずは、ollamaをダウンロードします。
その後、ollamaをインストールします。

 ollamaモデルから必要なモデルをインストール次に、ollamaモデルから必要なモデルをインストールします。

2025/1/12現在、browser-use web-uiでは、LLM Providerにollamaを選択した場合、Model名には、「qwen2.5:7b」と「llama2:7b」が選択可能です。

また、Model名は自由に書き換えが可能なので、任意のモデルを利用することができます。
それぞれのモデルをインストールしておきます。
ollama run qwen2.5:7b
ollama run llama2:7b
https://ollama.com/library/qwen2.5:7b

https://ollama.com/library/llama2:7b

 browser-use web-uiの設定http://127.0.0.1:7788/ へアクセスします。
LLM ConfigurationタブのLLM Providerを「ollama」を選択、Model Nameを「llama2:7b」を選択します。
また、Base URLには、ollamaのエンドポイントとして、http://127.0.0.1:11434 を記載しました。
Agent Settingsは、「Use Vision」と「Use Tool Calls in Content」のチェックは外しました。
その後、Run AgentのタブのTask Descriptionに任意の説明を記載して、Run Agentで実行します。

 実用例
 Googleへアクセスし、"OpenAI"で検索した最初のURLを取得最初は、browser-use web-uiを開いた時のデフォルトで入っている説明を使います。
Run AgentのタブのTask Descriptionには以下を記載します。
go to google.com and type 'OpenAI' click search and give me the first url
いずれも、OpenAIのgpt-4oを使う場合と比べると、時間はかかりました。

今回の場合、約10分〜20分程度かかりました。

llama2:7b だと、Step5まで進みましたが、失敗しました。

qwen2.5:7b だと、Step4まで進みましたが、失敗しました。
だいぶ動作に時間がかかるので、他のモデルで試してみます。
gemma:2bをollamaでインストールします。
ollama run gemma:2b 
LLM ConfigurationタブのLLM Providerを「ollama」を選択、Model Nameを「gemma:2b」と入力しました。
動作は1つのStepごとに30秒から1分程度になりましたが、タスクを解くのは失敗しました。

 おわりに本記事では、browser-useのweb-ui上でollamaを選択することでローカルLLMを活用する方法を紹介しました。

ローカルLLMを活用することで、API利用にかかるコストを削減しつつ、ブラウザ自動化を試すことができます。

今回は、うまくタスクを解くことができませんでしたが、ollamaを使ってローカルLLMを活用できることは確かめることができました。
最後までお読み頂きありがとうございました。本記事が参考になれば、幸いです。