🌈

DeepSeek V3でbrowser-use-webuiを使ってみよう!

2025/01/04に公開

前回の記事「browser-use-webuiでブラウザ操作を自動化しよう!」の続編として、今回はDeepSeek V3を使用した実践的な方法を解説します。

https://hamaruki.com/automate-browser-with-browser-use-webui/

DeepSeek V3の特徴

DeepSeek V3は、以下のような特徴を持つ強力な言語モデルです:

  • 高性能なタスク遂行能力
  • 日本語を含む多言語対応
  • コスト効率の良い料金体系
  • browser-useとの優れた相性

セットアップ方法

2.1 環境変数の設定

.envファイルに以下の設定を追加します:

DEEPSEEK_ENDPOINT=https://api.deepseek.com
DEEPSEEK_API_KEY=your_api_key_here

2.2 APIキーの取得

  1. DeepSeekの公式サイトでアカウントを作成
  2. API設定ページからAPIキーを生成
  3. 生成したキーを.envファイルに設定

DeepSeek V3での実行方法

3.1 WebUI設定

  1. LLM Providerで「deepseek」を選択
  2. LLM Model Nameを「deepseek-chat」に設定
  3. LLM Temperatureは0.7程度を推奨
  4. 【重要】use visionのチェックは外す

3.2 実行時の注意点

DeepSeek V3使用時の重要な注意点:

  1. ビジョン機能の制限

    • use visionをオンにするとJSONデシリアライズエラーが発生
    • 画像認識が必要な場合は他のモデルを使用
  2. プロンプトの最適化

    • 日本語での指示は具体的かつ簡潔に
    • 複雑なタスクは段階的に分割して実行

実行例:Google検索タスク

実際にDeepSeek V3で以下のタスクを実行してみました:

Task: google.com にアクセスして「OpenAI」と入力し、検索をクリックして最初のページにアクセスして内容を教えてください

実行ステップの詳細

  1. Step 1: Google.comへの移動

    • アクション: go_to_url を使用してGoogle.comに移動
    • 結果: 正常に移動完了
  2. Step 2: 検索クエリの入力

    • アクション: input_text でインデックス10に「OpenAI」を入力
    • 結果: 検索バーに「OpenAI」が入力され、サジェストが表示
  3. Step 3: 検索の実行

    • アクション: インデックス25の「Google 検索」ボタンをクリック
    • 結果: 検索結果ページに遷移
  4. Step 4: 最初の結果へのアクセス

    • アクション: インデックス18(最初の検索結果)をクリック
    • 結果: OpenAIのChatGPTページに遷移
  5. Step 5: コンテンツの抽出

    • アクション: extract_content でページ内容を取得
    • 結果: ChatGPTの概要ページの内容を取得

実行結果の分析

エージェントは以下の内容を抽出しました:

  • ChatGPTの主な機能と特徴
  • 無料版とPlus版の違い
  • 様々なユースケース例

実装のポイント

  • インデックスの適切な特定が重要
  • 動的コンテンツの待機時間の考慮
  • エラーハンドリングの実装

まとめ

DeepSeek V3は、browser-use-webuiで効果的に利用できる強力なモデルです。適切な設定と最適化により、多くのタスクを効率的に自動化できます。特にビジョン機能以外の用途では、コスト効率の良い選択肢となっています。

参考文献

  • browser-use公式ドキュメント
  • DeepSeek API Documentation
  • 前回の記事:「browser-use-webuiでブラウザ操作を自動化しよう!」

<script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

Discussion