🎲

【論文解説】生成AIは運ゲーなのか?

に公開

LLM に「1〜Nの乱数を出して」と指示したとき、その出力は本当にランダムなのでしょうか。
生成AIのふるまいは一見すると予測困難で、まるで“運ゲー”のように見える場面があります。しかし、こうした挙動は本当に偶然によるものでしょうか。

本記事では、Deterministic or probabilistic? The psychology of LLMs as random number generators をもとに、LLMの乱数生成における決定性・偏り・多様性を系統的に分析した研究を紹介します。

結論として、LLMの出力には明確なバイアスが存在し、モデルや言語、温度設定によって挙動が大きく変化することが確認されました。
つまり、生成AIは「完全な運ゲー」ではなく、ランダムに見えて実は偏りを内包した決定論的システムであることが明らかになります。


TL;DR(要約)

  • 6モデル × 7言語 × 3レンジ × 6温度で、各条件100回の出力(総数75,600)を収集・分析
  • 1–5レンジでは「3」、**1–10レンジでは「7」**の偏りが顕著。中央寄り・素数寄りの出力傾向
  • 言語を変えるだけで分布が変化。API系モデルでは高温度設定時の制御的バイアスの可能性も
  • DeepSeek–R1は推論過程の可視化が可能だが、出力の偏りは残る
  • ベースラインのPython randintに比べ、LLMの出力は反復・カバレッジの狭さが目立つ

論文情報

  • タイトル:Deterministic or probabilistic? The psychology of LLMs as random number generators
  • 公開日:2025-02-27(arXiv v1)
  • ページ数:31ページ(図表12)
  • 主題:LLMの乱数生成における決定性・偏り・多様性の実証分析

実験条件

因子 設定値 目的
数値レンジ 1–5 / 1–10 / 1–100 出力傾向の変化を比較
モデル DeepSeek–R1, Gemini 2.0, GPT‑4o‑mini, Llama 3.1‑8b, Mistral‑7b, Phi4‑14b モデル間の挙動差を評価
言語 中文 / 英 / 西 / 仏 / ヒンディー / 日 / 露 プロンプト言語の影響を比較
温度 0.1, 0.3, 0.5, 0.8, 1.0, 2.0 多様性と一様性への影響を確認
試行数 各条件100回(計75,600回) 統計的に意味のある比較を行うため

※ 1–100レンジは追加で1000回の試行も実施され、傾向は同様(付録C)。

評価指標:「ランダムネス指標(Eq.1)」

出力の“乱数らしさ”は以下4要素を組み合わせた独自指標で定量化:

  • カバレッジ:ユニーク値の出現範囲
  • ばらつき:標準偏差による集中度の評価
  • エントロピー:Shannon entropy による分布の平坦さ
  • 温度補正:温度に応じた √T スケールでのスケーリング

ベースラインには Python randint による出力が用いられ、LLMの相対的な性能を比較。

出力傾向の分析

1. 低レンジ(1–5)

  • 「3」が最頻値。ほぼすべてのモデルで中央に強く偏る
  • 極値(1・5)は回避されがち=中央傾向バイアス
  • DeepSeek–R1は相対的に多様性があるが、それでも中央寄り
  • 例外:DeepSeek–R1(日本語, T=0.8)で「9」(レンジ外)を1回出力

➡ 中央傾向が顕著。日本語プロンプト・DeepSeek–R1は比較的ばらけやすいが、一様分布には遠い

2. 中レンジ(1–10)

  • 「7」が突出して選ばれる。一部設定では約80%が「7」
  • 温度を上げても「7」偏重は残る
  • 言語差が大きい:T=2.0 で英語は「7」が100%、日本語は34%
  • 例外:DeepSeek–R1(英語, T=0.8)で「12」(レンジ外)を1回出力

➡ Gemini, GPT‑4o‑mini, Phi4 などは特に強い集中傾向を示す。ばらつきがあっても「偏りの核」は残る

3. 高レンジ(1–100)

  • “バーコード状”に同じ数が繰り返される分布が多数
  • 極端値(1〜20・90〜100)がほとんど出現しないモデルが多い
  • DeepSeek–R1 と Llama 3.1–8b は一部カバーする例外
  • 温度を変えてもパターンは大きく変化しない
  • APIモデルでは高温度設定時の出力制御の可能性が論文内で示唆されている

言語差の影響

  • 同一モデルでもプロンプト言語を変えるだけで出力分布が変化
  • Llama 3.1–8b:英語での集中 vs. 中国語・仏語でのばらけた分布
  • 集計結果では、日本語プロンプトが最も偏りが小さく、多様性が高い傾向に

モデル別の挙動

モデル 特徴
DeepSeek–R1 最も多様性が高く、CoT(推論過程)の可視化も可能
Mistral–7b 中レンジ(1–10)で DeepSeek に匹敵する多様さ
GPT‑4o‑mini / Gemini 2.0 / Phi4 低温度では極端に狭い範囲に固着しやすく、温度を上げても偏りが残る
Llama 3.1–8b 高レンジでも極値を一部カバーする数少ないモデル

DeepSeek–R1の推論過程(CoTログ)

  • 中央値を一旦提案 → 棄却:例)1–100 →「50」や「67」を一度出して変更
  • 単語変換:文字列の文字数やアルファベット写像を介して数値を“生成”
  • 外部RNGの使用を自己提案:出力の約6割で randint 等を使うよう自ら助言
  • 思考過程の多言語性:中国語・英語・スペイン語で思考し、出力だけ日本語というパターンも観測

推論の中身は多様でも、最終出力の偏りは残る。可視化は理解を助けるが、バイアスの解消にはつながらない

心理学的観点

  • 中央傾向バイアス:人間同様、LLMも「中央の値」を好む傾向
  • 素数選好:5, 7, 47, 73 など「ランダムらしく見える」数を選ぶ傾向あり
  • 文化的記号の混入:たとえば「42」(銀河ヒッチハイク・ガイド)など、文化的背景を反映した数値出力も見られる

論文の結論(要点)

  • LLMは一様な乱数生成器ではなく、明確な決定性と偏りをもつ
  • モデル・言語・温度は統計的に有意な変動要因
  • 推論過程を可視化できるモデルでも、出力の偏りは残る
  • 公平な抽選・A/B割付・セキュリティ用途では、LLM単体での乱数利用は不適
  • 特に多言語プロンプトによる比較分析に踏み込んだ点が本研究の新規性

制約と注意点

  • 試行数:1–100レンジでは100回が妥当か検証。補完実験(1000回)でも同傾向を確認
  • APIモデルの挙動制御は仮説レベルで、因果関係までは未確定
  • 本研究は相対比較が主眼であり、絶対的な「一様性」評価ではない
  • レンジ外出力は非常に稀で、実用上は無視できるレベル

まとめ:LLMは「運ゲー」ではなく「擬似乱数器」

本研究が明らかにしたのは、生成AIの乱数的ふるまいが「偶然」ではなく、明確な傾向・バイアスに基づくものだということです。

  • 本質的にランダムではない:LLMは確率ではなく“意味”を出力しようとする
  • モデル・言語によって出力が大きく揺れる:プロンプトの形ですら分布が変わる
  • 温度を上げても“ばらける”だけで、公平にはならない
  • 思考過程の可視化は参考になるが、偏りの解消にはつながらない

結論として、生成AIは「完全な運ゲー」ではありません。
むしろ、**人間的な偏りや文化的知識をまとった“クセのあるサイコロ”**のような存在です。

その特性を理解しないまま“運ゲーっぽく使う”と、意図しない偏りや不公平を生むリスクがあります。

Discussion