Closed15
AIエージェントのざっくりサーベイ
AIエージェントの調査
プロンプトエンジニアリングの技法
WebGPT
MRKL
Function Callingと同じ仕組みか?
ReAct
- Reason + Act
- ReasonをしたうえでActしたほうが精度が高い
Plan-and-Solve
- 計画を立てて(サブタスクに分割)から計画に従ってサブタスクを実行してください
- プロンプトエンジニアリングの技法をエージェント実装に応用
LLMCompiler
- LLM Planner: サブタスクに分割
- Task Fetching Unit: タスクの依存関係を分析
- Executor: 実行
- LangGraphでも利用可能
開発ライブラリ
- Function calling
- Assistants API, GPTs
- Amazon Bedrock for Agents
- LangGraph
実装例
マルチエージェント
- Generative Agents
- ChatDev
アプリケーション
- リサーチ
- シミュレーション
- ゲーム
- ソフトウェア開発
- 汎用コンピュータ操作
AIエージェントの資料がたくさん挙げられていてとっかかりとして非常に役立つ資料
AIエージェントのレベル感
- チャットボットが必要に応じてツールを使う(Function calling)
- 与えられたタスクを解決するために自律的に計画を立てて進める(AutoGPT、BabyAGI、AgentGPT)
- 複数のエージェントが協調動作する(マルチエージェント)(Generative Agents、ChatDev)
人類は長らく、人間を超える人工知能(AI)を求めてきました。多くの努力が知的エージェントの開発に注がれていますが、不足しているのは多様なシナリオに適応できる一般的で強力なモデルです。大規模言語モデル(LLM)は、人工一般知能(AGI)の可能性を秘めており、AIエージェントの基盤として活用されています。本論文では、LLMベースのエージェントについて包括的な調査を行い、その潜在的な応用や洞察に焦点を当てています。
エージェントとは
- AIエージェント=周囲を知覚し、意思決定をし、アクチュエータを使用して行動する能力を持つ人工実体
- エージェントを脳・知覚・行動の3つの主要部分からなるフレームワークでとらえる
トレンド
- シンボリックAI
- リアクティブ・エージェント(論理より環境との相互作用重視)
- 強化学習エージェント
- LLMエージェント
構成要素
脳
- 知識
- 記憶
- 推論・プラニング
- 汎化能力
知覚
- テキスト入力
- 画像入力
- オーディオ入力
- その他の入力
行動
- 言語生成
- ツールの利用
LLMを基盤とする自律エージェントの構築、応用、評価という3つの側面に基づいて調査を整理します
- エージェントアーキテクチャをどのように設計してLLMをより効果的に活用するか
- 異なるタスクを完了するためのエージェントの能力をどのように鼓舞し強化するかです。
マルチエージェント中心
とても面白い記事でした。
LLMのエージェントについて研究しているものです。
よければ一緒にZenn上で既存研究の調査・意見交換をしませんか。
このスクラップは2024/03/29にクローズされました