🐕

役割、記憶、計画、実行でAIがあなたの代わりに!エージェントのサーベイ論文

2024/11/10に公開

前書き

エージェントのサーベイ論文を読みました。
エージェントアプリ作ると、工夫しどころが結構浮かぶが、まずは先人の工夫を理解したいので。
自分の理解で書きます。
34ページもあるので2回で書こうと思います。今回1回目(まだ途中)
落合陽一さんの論文の読み方参考に書いてます。

読者対象

  • ChatDevやAIScientistを読んで、そんなシステムを作りたい人。
  • LnagGraphやAutoGenで作るうえで基本設計から考えてる人。

1. どんなもの?

  • エージェントのサーベイ論文
  • 以下グラフは、論文の累積数を表してたり、主要なエージェントの論文をカテゴリーごとに色分け

2. 先行研究と比べてどこがすごい?

  • 役割、記憶、計画、実行の観点で基本設計をまとめた。それぞれで論文を上げながら深堀

2.1 Profiling Module (属性、役割を与える)で考える点

  • プロファイルの内容
    1 人口統計学的情報: 年齢、性別、出身地、職業など、統計的に扱える情報。
    2 パーソナリティ情報: 性格、価値観、興味、信念など、その人の個性に関する情報。
    3 社会情報: 社会的な役割、人間関係、所属するグループなど、社会的な側面に関する情報。
  • 作成方法
    1 手動作成: 人が手作業で情報を収集
    2 LLM生成: 大規模言語モデル (LLM) が自動生成
    3 データセット調整: 既存のデータセットを基に、プロファイルの内容を調整

2.2 Memory Module (覚えておく)で考える点

  • 記憶の構造
    統合型メモリ: 短期記憶でコンテキストに含めること(だと思う)
    ハイブリッドメモリ:長期記憶と短期記憶を両方使う(別々に保存)
  • 記憶の形式
    言語: 自然言語
    埋め込み: 数値ベクトルに変換し記憶。意味や関係性を捉えるのに有効。
    データベース: 表形式で構造化
    リスト: 順序を持ったデータの集合
  • 記憶の操作
    記憶の読み込み: 必要な情報を記憶から取り出す操作。
    記憶の書き込み: 新しい情報を記憶に保存する操作。
    記憶の反映: 記憶内容を更新したり、整理したりする操作。

2.3 Planning Module (段取、細かく処理を考える)で考える点

  • フィードバックなしの計画(外部からのフィードバックを受けない)
    単一パス推論: 一つの道筋だけを辿って計画を立てる。
    複数パス推論: 複数の選択肢を検討し、最適な道筋を選択する。
    外部プランナー: LLMとは別のシステムが計画を立てる方法。
  • フィードバックありの計画
    環境フィードバック: 環境からの情報(成功/失敗など)をフィードバックとして受け取る。
    人間フィードバック: 人からの指示や評価をフィードバックとして受け取る。
    モデルフィードバック: LLM自身が出力した結果をフィードバックとして受け取る。
  • 以下の図は、フィードバックなしの計画の単一、複数パス推論の例

2.4 Action Module (動く、実行)で考える点

  • 行動の目標(ある時点での?)
    タスク完了: 与えられたタスクを完了させるための行動。
    探索: 新しい情報や知識を得るための行動。
    コミュニケーション: 人間や他のエージェントとコミュニケーションをとるための行動。
  • 行動の生成
    記憶の想起: 過去の経験や知識を記憶から思い出す。
    計画の追従: あらかじめ立てた計画に従って行動する。
  • 行動の空間
    ツール: 利用可能なツール(例:検索エンジン、計算機など)
    自己知識: LLM自身の能力や限界に関する知識
  • 行動の影響
    環境: LLMを取り巻く環境(例:ウェブサイト、商品データベースなど)
    内部状態: LLM自身の状態(例:知識、信念、目標など)
    新たな行動: LLMの行動が新たな行動を引き起こす可能性

2.5 モデルが能力獲得する戦略の時代による違い

  • 機械学習時代はパラメータ調整(データセット)が中心
  • 大規模言語モデル時代はプロンプトが中心
  • エージェント時代はメカニズムが中心 < 次回はここから書いていきます!

2.6 様々なエージェントモデルで使用機能を表内で番号で表示

  • プロファイル: 役割の作り方 ① 手作業 ② LLMで生成 ③ データセットに基づいて調整
  • メモリ: 操作: ① 読み書きのみ ② 読み書きに加えて、内容を振り返り、分析する機能を持つ
  • メモリ: 構造: ① 単一のメモリ ② 複数のメモリを組み合わせたハイブリッド型
  • プランニング: ① フィードバックなし ② フィードバックあり
  • アクション : ① ツールを使用しない ② ツールを使用する
  • エージェント能力獲得(CA)戦略: ① ファインチューニングあり ② ファインチューニングなし

3. ここまでの内容で議論はあるか?

  • 行動の結果を踏まえて、次の計画を立てる場合に、 人間が言語化してる範囲であればうまくいきそうではあるが 常識的なことは言語化されていないものがありそういうのは難しい。これをどう対処?
  • 解決策として、 ARグラスやスマートフォン上で、GPT4以上のAIが動きそうな状況で、 そうなると非言語情報が蓄積されてより、 人間と同じような思考、行動ができるようになりそう。
  • サーベイとしては、4つの部品には分けたが、各部品で言ってることが重複してたり、 点で記載されていて体系だってないように思えた。単なる自分の理解力不足?
  • より基本設計に関して体系だった論文が出てくると嬉しい

論文情報

あとがき

記事よかったら、いいね♡ 押してね!
次回は、メカニズムでの能力獲得から!

Discussion