ダイナミック LLM AI エージェント方式 - 新しい研究論文の紹介
一 問題の説明
本質的に、既存の LLM エージェント システムのほとんどは、限られた少数の定義済みアクションのみを受け入れる閉じたシミュレートされた環境で研究されています。すべての決定ポイントで、LLM エージェントはこのセットからアクションを選択するように制約されているため、いくつかの欠点があります。
1.エージェントの柔軟性が制限され、定義済みの範囲外でアクションを実行できなくなります。
2.すべての可能なアクションを事前に慎重に列挙して実装するには、かなりの人的労力が必要です。このアプローチは、閉じた環境では管理可能ですが、現実世界の設定では法外なコストがかかり、非現実的になります。
3.長期的なタスクでは、エージェントは毎回最初から基本的なアクションのシーケンスを作成する必要があり、過去の経験から学習して時間の経過とともに効率を向上させる能力が制限されます。
二 提案されたソリューション
これらの制限に対処するために、動的なアクション作成を可能にする LLM エージェント フレームワークを構築します。
1.ユニバーサルなアクション表現を実現するために、各アクションを Python 関数としてモデル化します。
2.各ステップで、エージェントは、既存のセットが不十分な場合に新しい関数を定義するか、現在のアクション セットから既存の関数を再利用する Python コード スニペットを生成してアクションを実行します。
3.生成されたコードは Python インタープリターを介して実行され、結果がエージェントに返されます。
4.さらに、エージェントによって生成されたすべてのアクションが蓄積され、将来の使用のために再利用可能な関数のライブラリが構築されます。
このアプローチにより、エージェントはオンザフライで機能を拡張し、より単純なアクションから複雑なアクションを構成できるため、柔軟性と問題解決能力が向上します。サードパーティの Python パッケージの広範なエコシステムを活用することで、エージェントは幅広いシステムやツールと対話できます。
詳細について、元の論文を参照してください - https://arxiv.org/pdf/2411.01747
共有されているコードも - https://github.com/adobe-research/dynasaur
Discussion