🤔

意思決定を行うためのprompt技術 ReAct

2023/02/07に公開
Title REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
authors Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
organizations Department of Computer Science, Princeton University, Google Research
link https://arxiv.org/abs/2210.03629

概要

大規模言語モデルの使いこなしに関する研究.
既存研究のでchain-of-thoughtでは,言語モデルが生成する文章の根拠を自身に生成させることで質問応答タスクの精度が向上した.しかしながら,この「根拠」は言語モデルの内部知識を活用したものなので,間違う可能性が大いにあった.また思考の過程もブラックボックスのまま.

そこでReActという新しいprompting手法を考案した.ReActは理由づけと行動計画を言語モデル自身に複数回行わせる.これによって思考の過程が明確になるだけでなく,外部知識の活用がスムーズになった.

ReActをより詳しく

ReActのpromptの書き方は、以下の論文から引用した図を見るとわかりやすい。
Chain of thoughtとの違いは、Actionが含まれる点と、思考のループを複数回繰り返すことにある。

ReACTの強化学習的解釈

強化学習において、環境からの観測値をo_t \in O,、行動をa_t \in Aとすると、ポリシー\piは以下とで表せる。

\pi(a_t | c_t), where \ c_t = (o_1,a_1, \cdots, o_{t-1}, a_{t-1}, o_t )

c_t → a_t へのマッピングを方策が学習するのが一般的であるが、ReACTのアイデアは、アクションに相当する部分を言語空間から生成していると解釈できる。

Decision Making Taskに使えるか?

本論文では、ReACTが意思決定タスクに使えるかを二つのタスクをもとに調べている。
下記の二つのタスクにおいても、既存研究を超える精度を達成したことが記されている。

実験の詳細は割愛!!

ALFWorld

  • エージェントはテキストアクションを使って模擬過程を移動し,対話することによって高レベルのゴールを達成する必要がある.エージェントは計画し,サブゴールを追跡し,系統的に探索することが要求される.
  • 一般的な家庭用品を探索する必要があるため,事前に学習したCommon-senceを活用する必要がある.

WebShop

  • 118万の実世界の商品と12kの人間の指示を持つオンラインショッピングウェブサイト環境
  • Webshopは構造化および非構造化テキストを含み,エージェントはユーザーからの要求に応じて該当する商品を購入することを要求する.

所感

Googleは言語モデルを使用した意思決定モデルの作成に力を入れているようです。
類似研究として、ロボットの行動を言語モデルを使用して決定する研究 (Do as i can, not as i say: Grounding language in robotic affordances, 2022. URL https://arxiv.org/abs/2204.01691)があります。
AIによる意思決定が実現すると、ありとあらゆるサービスにAIを組み込むことが可能になると考えられます。AIによる意思決定を行う論文は要チェックだと思いました。

参考文献

Discussion