🌊

（5分でわかる範囲で）Browser Use について調べてみた

2025/01/04に公開

 Browser Use とは本家の Github -> https://github.com/browser-use/browser-use
Browser Useは、生成AIを活用してWebブラウザを自動操作するためのPythonライブラリです。主な特徴と機能は以下の通りです:

 主な機能ウェブ要素の抽出と操作
ボタン、リンク、フォームなどの要素を自動的に認識し操作
視覚情報とHTML構造を統合してウェブページを理解
自動化機能
複数タブの同時管理
クリックされた要素の追跡と再利用可能な操作履歴（XPath抽出）
カスタマイズ性
ファイル保存、データベース操作、通知などのオリジナルアクション追加が可能
ヘッドレスモード、セキュリティ設定などのブラウザ設定をカスタマイズ可能
堅牢性と効率性
エラーの自動修正機能
並列エージェントの実行による処理効率の向上
多様なAIモデルとの互換性
GPT-4、Claude 3、Llama 2など、様々な大規模言語モデル(LLM)と連携可能
LangChainフレームワークのサポート

 使用方法必要なライブラリをインストール:
pip install browser-use
pip install playwright
playwright install
APIキーを.envファイルに保存:
OPENAI_API_KEY=your_openai_api_key
ANTHROPIC_API_KEY=your_anthropic_api_key
Pythonコードの例:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="東京都のおすすめの焼肉屋を調べてください。",
        llm=ChatOpenAI(model="gpt-4o-mini"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())
Browser Useを使用することで、Webサイトの情報収集、フォーム入力、複雑なワークフローの自動化など、様々なタスクを効率的に実行できます[1][2]。
引用元:

[1] https://trends.codecamp.jp/blogs/media/how-to-use8

[2] https://www.pc-webzine.com/article/2163

Browser Use とは

主な機能

使用方法

Discussion