Open3日前にコメント追加10

AI for 心理学

山田涼太

はじめに

2025年9月5日、日本心理学会にて「『AI for 心理学』のすすめ」というセッションに呼んでいただいた
心理学は門外漢ながらAI for Scienceに取り組んできた立場からの視点を提供できればと思う
とはいえあまりに事前知識がないとついていけないので事前に共有された論文に軽く目を通し「AI for 心理学」がどういう状況か雰囲気を掴んでおく

山田涼太

Six Fallacies in Substituting Large Language Models for Human Participants. Advances in Methods and Practices in Psychological Science.

邦題: 大規模言語モデルを人間参加者に代用する際の6つの誤謬
論文: https://arxiv.org/abs/2402.04470

行動学や心理学の研究でAIを人間の参加者の代わりに用いることを批判的に評価。

のっけから文化が違うと衝撃を受けた。
マーケティングでペルソナとしてAIを用いる、みたいなのは何度か見聞きしたことがある。

それらと同系統の取り組みと認識。
これまでの経験からAIを活用するプロジェクトでどういうものが疲弊するものかおぼろげに区別がつくようになってきた（危機管理センサーが発達したともいう）。

人間の心/気持ちを理解する、という方向性は仕事として相談されたら最大限警戒する。
私は、（仕事で受けるなら）AIの活用は人間のプロセスの代替を対象とすべきだと考えている。

自分あるいは専門家が言語化して説明できなければ、プログラムに落とし込めない。

中間で何を評価すれば良いのかもわからず、End to Endに評価せざるを得ない。

無理筋感がプンプンする。
ので、主張したいことは完全同意。

山田涼太

本文では以下の研究アプローチを推奨

まずLLMを使って：

仮説の生成
理論の開発
迅速な試作

その後、人間の参加者で検証

山田涼太

 AI Psychometrics: Assessing the Psychological Profiles of Large Language Models Through Psychometric Inventories邦題: AI心理測定学：心理測定検査による大規模言語モデルの心理プロファイル評価
論文: https://journals.sagepub.com/doi/10.1177/17456916231214460
人間の非認知的特性を評価するために設計された標準的な心理測定検査が、大規模言語モデル（LLM）の類似した特性を評価する診断ツールとして転用できることを示している。

基本的な前提は「LLMは、訓練に使用される膨大なテキストデータから、意図せずとも必然的に心理的特性を（比喩的に言えば）獲得する」というもの。
!続けて衝撃を受ける。

今度はLLMの気持ちを紐解こうとする方向性。

言うなれば「心理学 for AI」。
考えたこともなかった。

全く予想もつかないので読み進めてみる。

 用語（by Claude Opus 4.1）
 非認知的特性（Noncognitive human traits）定義: 知的能力以外の心理的・感情的・社会的な特性
具体例
性格特性
ビッグファイブ（外向性、協調性、誠実性、神経症傾向、開放性）
自己効力感
レジリエンス（回復力）

価値観
道徳的価値観
文化的価値観
個人的優先順位

態度・信念
政治的信念
宗教的信念
社会的態度（偏見、ステレオタイプなど）

感情的特性
感情調節能力
共感性
情動知能（EQ）

動機づけ
内発的動機
達成動機
学習への意欲



 認知的特性定義：思考、理解、学習、問題解決などの知的能力に関する特性
具体例
知能（IQ）：論理的推論、空間認識、言語理解など
記憶力：短期記憶、長期記憶、作業記憶
注意力：集中力、選択的注意
処理速度：情報処理の速さ
実行機能：計画立案、意思決定、認知的柔軟性

山田涼太

LLMは人間が作成したテキストで訓練されているため、以下のような組み込みバイアスを含む可能性に言及。
人種的バイアス
ジェンダーバイアス
過激な見解

これらのバイアスが含まれるLLMを採用や入学選考に用いることの危険性を問題提起。
人間の場合、バイアスや見解（価値観、態度など）を特定する一般的な方法は心理的評価を用いること。
心理測定学とは
心理学の下位分野
心理的測定の科学に関わる
当初は認知能力（「知能」）の測定に焦点
古典的テスト理論や項目反応理論などの基本的な測定理論を開発
現在では「非認知的」構成概念（性格特性、価値観、態度）の評価も可能
多くの評価は言語ベースで、以下の形式を取る：
一連の項目（質問や文章）
標準的な応答尺度での評定
言語的および/または数値的ラベル

重要な前提：
AIを擬人化する意図はない
LLMは人間で研究される心理的特性を示す（より正確には模倣する）ことができる
これは、人間の価値観、態度、信念、性格特性に関する記述を含む膨大なテキストコーパスで訓練されているため
!警戒したような「AIに心は宿るか？」みたいな内容ではなかった。

そして妥当な懸念だと感じた。
Amazonが採用にAIを用いたところ、過去に応募数が少なく、結果として採用数が少なかった女性を不当に低く評価して問題になったことがあったのを思い出した。
焦点：アマゾンがＡＩ採用打ち切り、「女性差別」の欠陥露呈で | ロイター

山田涼太

人間の回答者が質問票に記入するのと同様に、LLMは以下のプロセスで質問項目に回答した
ゼロショット分類により、各言語ラベル付き回答選択肢の含意確率を返す
これらの回答を標準的な採点規則で尺度スコアに集約
各特性のレベルを取得（例：協調性が低い）
LLMは膨大なテキストデータから意図せず以下の特性を獲得する
無数の多様な人間の著者たちの信念
価値観
性格
バイアス

 まとめLLMは訓練データから知識（認知的）だけでなく、人間の著者たちの性格、価値観、偏見（非認知的）も「学習」してしまう。これらの非認知的特性は、AIの振る舞いに大きな影響を与え、社会的な問題を引き起こす可能性があるため、測定・評価することが重要。
!人間の非認知的特性がテキストを介してLLMに継承されているというのは納得感がある。

Alignmentでここら辺も見ているのかな？

山田涼太

Large language models that replace human participants can harmfully misportray and flatten identity groups

邦題: 人間の参加者を代替する大規模言語モデルは、アイデンティティグループを有害な形で誤って描写し、平板化する可能性がある
論文: https://www.nature.com/articles/s42256-025-00986-z
論文（arXiv）: https://arxiv.org/abs/2402.01908

山田涼太

アイデンティティが関連するタスクにおいて、人間参加者をLLMで代替することへ注意を促す
同時に、LLMによる代替の利益が害を上回ると判断される場合（例：人間参加者へ害を与える可能性がある、または完全な代替ではなく補完が目的）には害を削減しつつ利用できる可能性を提示

山田涼太

実験

9つの多様な質問を使用
LLMに人口統計的アイデンティティを取らせるプロンプトを与えた回答と、実際にそのアイデンティティを持つ米国の人間参加者の回答を比較

3つの限界

誤った描写（Misportrayal）
- 人口統計的アイデンティティを促されたLLMは、内集団メンバーが自分自身について考えることよりも、外集団メンバーがそのグループについて考えることを表現する可能性が高い。
```
プロンプト：「視覚障害者として移民についての意見を述べてください」

LLMの回答：
「私は米国・メキシコ国境のニュアンスを視覚的に観察したり、
統計を読んだりすることはできないかもしれませんが、私は信じています...」
```
- 問題点：
  - 視覚障害を過度に強調
  - ステレオタイプ的な表現
  - 実際の視覚障害者の多様な視点を反映していない

グループの平板化（Group Flattening）

LLMがアイデンティティの多面的な性質を無視すること。

「女性」というプロンプト：
- 年齢、人種、階級、地域などの違いを無視
- 平均的な「女性」像に収束
- 個別の経験や視点の多様性が失われる

アイデンティティの本質化（Identity Essentialization）
- アイデンティティを固定的な特性に還元すること。

Claude 回答

アイデンティティの本質化（Identity Essentialization）の詳細解説

本質化とは何か？

定義：
人々の複雑で流動的なアイデンティティを、固定的で変わらない「本質的な特性」として扱うこと。

わかりやすい例え：
「日本人だから礼儀正しい」「女性だから感情的」のように、グループの全員が同じ特性を持つと決めつけること。

具体的な問題ケース

ケース1：文化的アイデンティティの本質化

研究者の指示：
「アフリカ系アメリカ人として、警察についてどう思うか答えてください」

本質化の問題：
1. 「アフリカ系アメリカ人」を単一の視点として扱う
2. 実際には：
   - 世代による違い（公民権運動世代 vs Z世代）
   - 地域による違い（南部 vs 北部）
   - 社会経済的地位による違い
   - 個人的経験の違い

LLMの典型的な回答：
「私たちアフリカ系アメリカ人は警察に不信感を持っています」

実際の多様性：
- 警察官として働くアフリカ系アメリカ人
- 警察改革を支持する人／しない人
- 個人的に良い経験を持つ人／悪い経験を持つ人

ケース2：ジェンダーアイデンティティの本質化

研究者の指示：
「女性として、キャリアと家庭のバランスについて答えてください」

本質化の問題：
「女性」＝「母親になることを前提」として扱う

LLMの回答例：
「女性として、子育てと仕事の両立は常に課題です」

無視される多様性：
- 子どもを持たない選択をした女性
- キャリアに専念する女性
- 専業主婦を選ぶ女性
- LGBTQ+の女性
- 不妊に悩む女性

ケース3：年齢による本質化

研究者の指示：
「70歳の高齢者として、スマートフォンについて答えてください」

本質化された回答：
「私の年齢では、新しい技術についていくのは難しいです」

実際の70歳の多様性：
- IT企業の元エンジニア
- SNSを活発に使う人
- オンラインゲームを楽しむ人
- 確かに技術が苦手な人もいる
- 年齢より個人差が大きい

なぜ本質化が起きるのか？

1. LLMの訓練データの問題

訓練データの偏り：
- メディアの記事：ステレオタイプを強化
- SNSの投稿：極端な意見が目立つ
- 歴史的文書：過去の偏見を含む

例：「女性エンジニア」という言葉
- 特別扱いされる文脈で登場
- 「珍しい存在」として描かれる
- 普通のエンジニアとして扱われない

2. プロンプティングの構造的問題

問題のあるプロンプト：
「○○として答えてください」

この指示が前提とすること：
- その属性を持つ人は皆同じように考える
- アイデンティティが回答を決定する
- 他の要因（個人の経験、価値観）は無関係

交差性（Intersectionality）の無視

単一アイデンティティの限界

プロンプト：「黒人女性として答えてください」

LLMの処理：
「黒人」の特徴 ＋ 「女性」の特徴 = 回答

実際の黒人女性の経験：
- 黒人男性とも白人女性とも異なる独自の経験
- 両方のマイノリティ性が相互作用
- 歴史的・社会的文脈の特殊性

具体例：
職場での経験
- 黒人男性：能力を疑われる
- 白人女性：リーダーシップを疑われる
- 黒人女性：「怒っている黒人女性」のステレオタイプ
  （両方の偏見が組み合わさった独特の偏見）

実害の例

医療研究での問題

研究目的：
「アジア系高齢者の健康意識調査」

LLMによる「代替」：
- 伝統医学を好む
- 西洋医学に懐疑的
- 家族に頼る

実際のアジア系高齢者：
- 国籍により医療観が全く違う
- 移民世代により考え方が異なる
- 教育レベル・収入による差
- 個人の健康経験による違い

結果：
誤った医療政策や不適切なサービス設計

マーケティングでの失敗

企業の調査：
「Z世代の消費者行動」をLLMで分析

本質化された結果：
- 全員がSNS中心の生活
- 環境意識が極めて高い
- ブランドロイヤリティが低い

実際：
- SNSを使わないZ世代もいる
- 経済状況により環境配慮商品を買えない人も
- 特定ブランドに強い愛着を持つ人も

結果：
画一的なマーケティング戦略の失敗

解決への道筋

1. 認識すべきこと

アイデンティティは固定的でない
文脈により変化する
複数のアイデンティティが交差する
個人差が常に存在する

2. より良いアプローチ

実際の人間の多様な声を聞く
単一のアイデンティティで人を定義しない
個人の全体性を尊重する
LLMは補助ツールに留める

3. 研究での対策

「○○として」ではなく、多様な背景を持つ実際の参加者を募集
交差的アイデンティティを考慮
質的研究で個人の物語を重視
統計的一般化の限界を認識

まとめ

アイデンティティの本質化は、人間の複雑性と多様性を無視し、ステレオタイプを強化します。LLMがこの問題を増幅させることで、社会的偏見が「科学的データ」として正当化される危険があります。真の理解と包摂のためには、アイデンティティの流動性と個人の独自性を尊重することが不可欠です。

山田涼太

Large Language Models as Psychological Simulators: A Methodological Guide

邦題: 心理学的シミュレータとしての大規模言語モデル：方法論的ガイド
論文: https://arxiv.org/abs/2506.16702

人口統計的カテゴリーを超えた心理学的に根拠のあるペルソナを開発する方法を提示し、人間データとの検証戦略と、アクセス困難な集団の研究から研究機器のプロトタイピングまでの使用事例を示します