Open18日前にコメント追加2

他人の意図を予測する認知モデル

https://hai-conference.net/symp2024/proceedings/pdf/G-28.pdf

 課題感生成AIは、言外の意味を扱うコミュニケーションが苦手である（言語学でいう語用論）。
e.g. 「部屋寒いね」は本当は「温度調整してほしいな」を相手に伝えたい。これを「部屋寒いね」の観測データからどう予測できるか？

 分析デザイン
 モデル、アーキテクチャ意図予測システム、意図生成システム、発話生成システムの3つから構成されるシステム。
意図予測システム： 他者の発話と自己の想定する他者信念と他者願望から他者の意図を推定する。
意図生成システム： 推定した他者の意図と自己の信念及び願望から自己の発話意図を生成する。
発話生成システム： 自己の発話意図と他者の発話から自己の発話を生成する。
数式で記述すると、

他者の発話： S_o

自己の想定する他者の信念： E[B_o]

自己の想定する他者の願望： E[D_o]

自己の想定する他者の意図： E[I_o]

自己の信念： B_m

自己の願望： D_m

自己の意図： I_m
E[I_o] = F_1(S_o, E[B_o], E[D_o])

I_m = F_2(E[I_o], B_m, B_d)

S_m = F_3(I_m, S_o)
F_1~F_3は、自然言語で記述された任意の文字列を引数として取り、自然言語を返す、LLMの単発プロンプトである。

論文で主張していることは、B_o, B_d, S_o, B_m, D_mが情報として記述されていれば、E[I_o]の推定とI_m, S_mの生成が出来る、ということである。
一方、我々のユースケースではB_o, B_d, B_m, D_mも観測不可能データであることの方が多い。そこでBDIを実践投入するために重要なことはこれらの観測不可能データを観測することである。

mについてはAgentの本人に言語化してもらうことで、oについてはAgent-人間の対話を通じて言語化してもらうことで観測可能となる。特に後者については明確なインセンティブ付与が不可欠となる。

 実験環境「皮肉」、「ツンデレ」、「社会的制約」の3つのシチューエーションに対して、「相手の信念」、「相手の願望」、「相手の発話」、「自己の信念」、「自己の願望」の初期値を与える。それに対して、LEC、CELに加えて他のパターンを作成

 用語HAI： Human-Agent Interactionという学術領域。
LEC： LLM Embedded in Cognitive Architecture
CEL： Cognitive Architecture Embedded in LLM
BDIモデル： 信念（Belief）、願望（Desire）、意図（Intention）
他者モデル： 他者の心理状態や行動を予測、解釈するためのモデル。観測可能なデータだけでなく、自己モデルの応用で他者の心理状態を予測する。
自己モデル： 自己の心理状態や行動を予測、解釈するためのモデル。
Belief： 認識している世界の情報や知識。
Desire： 達成したい目標や状態。
Intention： 行動を起こすための計画や戦略。BとDからIは生成され、発話内容はIによって決定される。

kazuki a.k.a Δ/∇

自己モデル：自分の心的状態を記述するモデル（事象をどう解釈したか、どう行動決定するか）。観測可能なデータ（相手の発言、自分の過去の発言、読んだ本など）から、観測不可能な心的状態を予測する。