🌊

(5分でわかる範囲で)Browser Use について調べてみた

2025/01/04に公開

Browser Use とは

本家の Github -> https://github.com/browser-use/browser-use

Browser Useは、生成AIを活用してWebブラウザを自動操作するためのPythonライブラリです。主な特徴と機能は以下の通りです:

主な機能

  1. ウェブ要素の抽出と操作

    • ボタン、リンク、フォームなどの要素を自動的に認識し操作
    • 視覚情報とHTML構造を統合してウェブページを理解
  2. 自動化機能

    • 複数タブの同時管理
    • クリックされた要素の追跡と再利用可能な操作履歴(XPath抽出)
  3. カスタマイズ性

    • ファイル保存、データベース操作、通知などのオリジナルアクション追加が可能
    • ヘッドレスモード、セキュリティ設定などのブラウザ設定をカスタマイズ可能
  4. 堅牢性と効率性

    • エラーの自動修正機能
    • 並列エージェントの実行による処理効率の向上
  5. 多様なAIモデルとの互換性

    • GPT-4、Claude 3、Llama 2など、様々な大規模言語モデル(LLM)と連携可能
    • LangChainフレームワークのサポート

使用方法

  1. 必要なライブラリをインストール:

    pip install browser-use
    pip install playwright
    playwright install
    
  2. APIキーを.envファイルに保存:

    OPENAI_API_KEY=your_openai_api_key
    ANTHROPIC_API_KEY=your_anthropic_api_key
    
  3. Pythonコードの例:

    from langchain_openai import ChatOpenAI
    from browser_use import Agent
    import asyncio
    
    async def main():
        agent = Agent(
            task="東京都のおすすめの焼肉屋を調べてください。",
            llm=ChatOpenAI(model="gpt-4o-mini"),
        )
        result = await agent.run()
        print(result)
    
    asyncio.run(main())
    

Browser Useを使用することで、Webサイトの情報収集、フォーム入力、複雑なワークフローの自動化など、様々なタスクを効率的に実行できます[1][2]。

引用元:
[1] https://trends.codecamp.jp/blogs/media/how-to-use8
[2] https://www.pc-webzine.com/article/2163

Discussion