📝
[arxiv]Empowering LLM to use Smartphone for Intelligent Task Automatio
要約
AutoDroidは、LLMと自動動的分析を組み合わせることで、手動の作業を必要とせずに、任意のAndroidアプリケーションで任意のタスクを処理できるモバイルタスク自動化システムです。AutoDroidは、158の一般的なタスクを備えた新しいベンチマークでテストされ、90.9%の精度と71.3%の成功率でタスクを完了できることが示されました。これは、GPT-4ベースのベースラインを36.4%および39.7%上回っています。
要点
- モバイルタスク自動化は、音声ベースのハンズフリーユーザー操作をスマートフォンで可能にする魅力的な技術。
- 既存のアプローチは、開発者やエンドユーザーから必要とされる限られた言語理解能力と非自明な手動作業のために、スケーラビリティが低い問題を抱えている。
- AutoDroid は、手動作業なしで任意の Android アプリケーションで任意のタスクを処理できるモバイルタスク自動化システム。
- AutoDroid のキーインサイトは、LLM の常識的知識と、自動動的分析を通じてアプリの特定の知識を組み合わせること。
- AutoDroid の主要コンポーネントは、UI と LLM を接続する機能認識 UI 表現方法、LLM のアプリ固有の知識を拡張する探索ベースのメモリ注入技術、モデル推論のコスト。
- AutoDroid をオンライン GPT-4/GPT-3.5 やオンデバイス Vicuna などの市販の LLM と統合し、158 の一般的なタスクを備えた新しいメモリ拡張 Android タスク自動化ベンチマークでそのパフォーマンスを評価した。
- 結果は、AutoDroid が 90.9% の精度で正確にアクションを生成できること、71.3% の成功率でタスクを完了できることを示した。これは、GPT-4 ベースのベースラインを 36.4% と 39.7% 上回っている。
キーワード
- モバイルタスク自動化
- 大規模言語モデル (LLM)
- 自動動的分析
- 機能認識 UI 表現方法
- 探索ベースのメモリ注入技術
- モデル推論のコスト
- ベンチマーク
Discussion