🤔

意思決定を行うためのprompt技術 ReAct

2023/02/07に公開

Title	REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
authors	Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
organizations	Department of Computer Science, Princeton University, Google Research
link	https://arxiv.org/abs/2210.03629

概要

大規模言語モデルの使いこなしに関する研究．
既存研究のでchain-of-thoughtでは，言語モデルが生成する文章の根拠を自身に生成させることで質問応答タスクの精度が向上した．しかしながら，この「根拠」は言語モデルの内部知識を活用したものなので，間違う可能性が大いにあった．また思考の過程もブラックボックスのまま．

そこでReActという新しいprompting手法を考案した．ReActは理由づけと行動計画を言語モデル自身に複数回行わせる．これによって思考の過程が明確になるだけでなく，外部知識の活用がスムーズになった．

ReActをより詳しく

ReActのpromptの書き方は、以下の論文から引用した図を見るとわかりやすい。
Chain of thoughtとの違いは、Actionが含まれる点と、思考のループを複数回繰り返すことにある。

ReACTの強化学習的解釈

強化学習において、環境からの観測値を $o_t \in O$ ,、行動を $a_t \in A$ とすると、ポリシー $\pi$ は以下とで表せる。

\pi(a_t | c_t), where \ c_t = (o_1,a_1, \cdots, o_{t-1}, a_{t-1}, o_t )

$c_t \to a_t$ へのマッピングを方策が学習するのが一般的であるが、ReACTのアイデアは、アクションに相当する部分を言語空間から生成していると解釈できる。

Decision Making Taskに使えるか？

本論文では、ReACTが意思決定タスクに使えるかを二つのタスクをもとに調べている。
下記の二つのタスクにおいても、既存研究を超える精度を達成したことが記されている。

実験の詳細は割愛！！

ALFWorld

エージェントはテキストアクションを使って模擬過程を移動し，対話することによって高レベルのゴールを達成する必要がある．エージェントは計画し，サブゴールを追跡し，系統的に探索することが要求される．
一般的な家庭用品を探索する必要があるため，事前に学習したCommon-senceを活用する必要がある．

WebShop

118万の実世界の商品と12kの人間の指示を持つオンラインショッピングウェブサイト環境
Webshopは構造化および非構造化テキストを含み，エージェントはユーザーからの要求に応じて該当する商品を購入することを要求する．

所感

Googleは言語モデルを使用した意思決定モデルの作成に力を入れているようです。
類似研究として、ロボットの行動を言語モデルを使用して決定する研究 (Do as i can, not as i say: Grounding language in robotic affordances, 2022. URL https://arxiv.org/abs/2204.01691)があります。
AIによる意思決定が実現すると、ありとあらゆるサービスにAIを組み込むことが可能になると考えられます。AIによる意思決定を行う論文は要チェックだと思いました。

参考文献

https://ai.googleblog.com/2022/11/react-synergizing-reasoning-and-acting.html

概要