Dissociating language and thought in large language models: a cognitive perspective

We focus on four key capacities that are not language-specific but are nevertheless crucial for language use in real-life settings: i) formal reasoning—a host of abilities including logical reasoning, mathematical reasoning, relational reasoning, computational thinking, and novel problem solving; ii) world knowledge—knowledge of objects and their properties, actions, events, social agents, facts, and ideas; iii) situation modeling—the dynamic tracking of protagonists, locations, and events as a narrative/conversation unfolds over time; and iv) social reasoning—understanding the social context of linguistic exchanges, including what knowledge is shared, or in ‘common ground’, what the mental states of conversation participants are, and pragmatic reasoning ability. A simple conversation typically requires the use of all four of these capacities, yet none of them are specific to language use. Below, we provide evidence that these skills rely on non-language-specific processing mechanisms in humans and highlight LLMs’ failures as relevant to each domain.
私たちは、言語固有ではありませんが、現実の環境で言語を使用するために重要である 4 つの主要な能力に焦点を当てます。
i) 形式的推論
論理的推論、数学的推論、関係論的推論、計算的思考、新しい問題を含む多数の能力解決する。
ii) 世界知識
物体とその特性、行為、出来事、社会的主体、事実、およびアイデアに関する知識。
iii) 状況モデリング
時間の経過とともに展開される物語/会話としての主人公、場所、およびイベントの動的な追跡。
iv ) 社会的推論
どのような知識が共有されるか、または「共通の基盤」において、会話の参加者の精神状態がどのようなものであるか、および実用的な推論能力を含む、言語交換の社会的背景を理解する。
通常、単純な会話ではこれら 4 つの能力すべてを使用する必要がありますが、言語使用に特有のものはありません。
以下では、これらのスキルが人間の非言語固有の処理メカニズムに依存しているという証拠を示し、各領域に関連する LLM の失敗を強調します。

1~4のmoeで、入出力を形式的言語能力で行うのがよい?

We believe that a model that succeeds at real-world language use would include–—in addition to the core language component–—a successful problem solver, a grounded experiencer, a situation modeler, a pragmatic reasoner, and a goal setter. In a way, we therefore arrive at the same conclusion as Turing (1950): a model that masters language use, not just the rules and patterns of natural language, has to be a general intelligence model. Furthermore, based on the functional organization of the brain, the machinery required to simulate intelligence will include both domain-general components (such as the multiple demand network (Duncan, 2010; Fedorenko et al., 2013)) and domain-specific components (such as brain regions specialized for intuitive physics (Fischer et al., 2016), navigation (Epstein et al., 2017), and social reasoning [Section 4.3.4]). This modularity could be baked in by training modular models (see Section 5.1) on a mixture of carefully curated datasets using diverse objective functions (e.g., how GPTChat combines a pure language modeling objective with an additional human feedback objective).
私たちは、実世界の言語使用で成功するモデルには、コア言語コンポーネントに加えて、問題解決に成功する人、根拠のある経験者、状況モデラー、実際的な推論者、目標設定者が含まれると考えています。したがって、ある意味では、チューリングと同じ結論に達します(1950年) : 自然言語のルールやパターンだけでなく、言語の使用を習得するモデルは、一般的な知能モデルでなければなりません。さらに、脳の機能組織に基づいて、知能をシミュレートするために必要な機械には、ドメイン一般コンポーネント (マルチデマンド ネットワーク(Duncan、Duncan、2010年; フェドレンコら、2013年) ) およびドメイン固有のコンポーネント (直感的な物理学に特化した脳領域など) (Fischer et al.,2016年)、ナビゲーション(Epstein et al.、2017年)、および社会的推論 [セクション4.3.4 ])。このモジュール性は、多様な目的関数 (たとえば、GPTChat が純粋な言語モデリングの目的と追加の人間によるフィードバックの目的をどのように組み合わせるかなど) を使用して、注意深く厳選されたデータセットの混合物上でモジュールモデル (セクション 5.1 を参照) をトレーニングすることによって組み込まれます。