なぜ ChatGPT は 急に賢くなったのか? ⸺ 「跳躍」を起こす「ある一線」とは?
ChatGPT-3.5 を初めて触ったときの衝撃、覚えていますか?
『もう人と話しているみたいだ』⸺ そう感じた瞬間が、あなたにもあったはずです。
でもなぜ突然、以前のバージョン GPT-3 と比べて別次元の賢さを示し出したのか、不思議ではありませんでしたか?
それまでの GPT-3 では、「すごいけど、まだどこか頼りない」感じがありました。
翻訳や文章生成はできるけれど、論理が飛んだり、会話がぎこちなかったり。
ところが 3.5 になった途端、「あれ、もう人と話しているみたいだ」と錯覚するほどの自然さと一貫性が現れました。
単に規模を大きくする、つまりパラメータ数を増やす、という連続的な改善なのに、なぜこのような不連続的な跳躍に至ったのでしょうか?
もちろん、ChatGPT の訓練方法の進歩もあります(例えば RLHF)。
ところが「規模の効果」に着目して深掘りすると、性能の跳躍を引き起こした別の根本的な理由が浮かび上がります。
それは、規模がある一線を越えたからです。
ではその「ある一線」とは何なのか?
ChatGPT に代表される LLM(大規模言語モデル)と人間の脳との関連性を探りつつ、一つの興味深い仮説を導きたいと思います。
脳は言葉をどう処理するのか?
まず、人間の脳の言語処理について簡単におさらいしましょう。
脳で言語を扱う大脳皮質には、表面的には特に明示的な区分が見えませんが、領域によって、言語処理の役割がはっきりと分担されています。
脳は領域によって「〜野」という名称で区分されており、ブローカ野 は主に言語の産出(話す・書く)を、ウェルニッケ野 は言葉の意味理解を、それぞれ専門的に担当しています(これらの領域が障害を受けるとさまざまな失語症になります)。こうした機能の分業が、私たちに複雑で柔軟な言語運用を可能にしています。言語を処理するにあたって、人間の脳は「役割分担」するように進化してきたのです(ブローカ野は、人類の進化における言語発達の指標となると考えられています)。
そして驚くべきことに、最近の研究で、LLM の内部でも同じような「役割分担」が現れることが明らかになりました。
LLMの内部にも“役割分担”は生まれる
最近のいくつかの研究は、LLM の規模が小さい間は曖昧に分散していた言語の処理が、規模が大きくなってある「しきい値」を超えると、文法や意味理解、文脈参照を担う層やユニットへと自然に分化 していくことを明らかにしました。脳が役割を分担して進化したように、LLMもまたその内部で各々の部分が「自ら役割を見つけ始める」ことがわかってきたのです。
ChatGPT-3.5 に触れたときに私たちが「急に頭が良くなった」と感じたのは、その規模がある「しきい値」を越えて、機能分化が一気に立ち上がった瞬間に立ち会ったからと言えそうです。だからあのとき私たちは、ただのアップデートではなく、別次元への“進化”を体感したのでしょう。
では実際に、どんな証拠があるのでしょうか?
「しきい値」を超えると能力が開花する
「ただ大きくなっただけ」のはずなのに、なぜこんな劇的な変化が現れたのでしょうか?
最近の研究では、大きく3つのタイプの「跳躍」が確認されています。
- 回路の出現: 多くの LLM の基盤技術である「Transformer」の内部では、学習の途中で突然、「Induction Head」と呼ばれる回路が出現 し、文脈内学習と呼ばれる特殊な学習様式を可能にします。これは、通常の学習のようなパラメータの変更を経ずに、入力内容に対応して、その場で新しいタスクに適応できる能力 です。まさに 「新しい能力が、ある日突然芽吹く」 のです。
- 統語の内部分化: モデルが大きくなるほど、統語処理(構文や依存関係を見出す処理)が「より専門的な役割」として内部で分化していきます。2025年の研究では、その発達過程を SSI(Syntax Specialization Index) と呼ばれる処理の分業具合を示す指標を用いて調査し、LLMの規模がある水準を超えると、一気に統語的機能が強まる 様子が示されました。
- 損失や表現の非線形ジャンプ: 小さなモデルではできなかった翻訳や推論が、ある規模を超えた瞬間に急に可能になこともわかってきました。 LLM の規模を大きくしていくと、学習具合を示す学習曲線にも段差が現れ、能力が「しきい値」を超えて開花することが裏付けられています。
こうした現象の積み重なりが、私たちが体感した「GPT-2→3」「GPT-3→3.5」での飛躍をもたらしたと考えられています。私たちが感じた「別物感」は、決して気のせいではなかったのです。
なお、公平を期すために言うと、すべての飛躍が純粋に突然なわけではありません。スケーリング則は依然として連続的にもかかわらず、RLHF のような学習方法の改善や、単に比較基準の設定や評価の仕方によってでも、変化が実際よりも劇的に見える場合があります。しかし、こうした留意点を踏まえても、これらの研究結果を無視するのは難しいと思われます。モデルは単に成長するのではなく、ある「しきい値」を超えると「変容する」とは言えそうです。
こういった話を聞くと、次のような疑問が湧いてきます。「LLM 内部の『役割分担』は、人の脳の役割分担と比べて、果たして似ているのか、それとも違うのか?」実はこの方面でも研究が進んでいて、ちょっとビックリするような結果が得られ始めています。
LLMは規模とともに「脳に似ていく」
近年では「LLMの内部表現が脳活動とどれだけ似ているか」を測定する研究が進んでいます。そして、以下のような興味深い結果が出てきています。
- Renとその同僚の研究 (2024):モデルの規模が大きくなり、学習量が増えるほど、脳との類似度が上昇。
- Awとその同僚の研究 (2023):学習時の指示調整により脳との類似度が向上するが、向上の根源的な要因はモデルの規模 と指摘。
- Antonelloとその同僚の研究 (2023):モデルの規模を125Mから30Bへと拡大すると、脳との類似性が急激に(指数的に)向上。
結論は一貫しています。驚きです。
LLMは規模が大きくなるほど、その活動パターンは、ますます人間の脳が言語処理をしている時に似てくるという根拠が蓄積してきている のです。
この事実には、正直、ワクワク感と困惑が混じってしまいます…。
規模がもたらす「脳らしさ」
LLMの規模、パラメータ数は、単なる連続的な指標ではなかったのです。どこかに「人の脳らしさ」「言語処理の流暢さ」を呼び覚ます鍵となる しきい値 がある。大規模化 は単なる「パラメータ数の増加」ではなく、言語処理に関して機能分化を引き起こし、人の脳の処理に似た構造を立ち上げるための「トリガー」を引く と考えられるのです。
ここまでを整理すると、「ChatGPT(LLM)がなぜ急に賢くなったのか?」に対する、一つの説得力のある仮説が導き出せます。
LLMのサイズが大きくなり、ある「しきい値」を超えた時、言語機能に必要な「役割分担=機能分化」ができるようになった。
これにより LLMは、脳での言語処理のやり方をより上手く真似れるようになった。
それで急に、人間の脳のように、言語を流暢に扱えるようになった。
GPT-2 から 3、そして 3.5 への跳躍は、私たち自身がこの「創発の現場」に立ち会った瞬間だったのでしょう。まるで、粗いドット絵が、ある解像度を超えた瞬間に、急に写真として認識されるのと同じように。
ここで 「ではなぜ LLM の処理は脳の真似をしようとするのか?」 と疑問に思った方もいらっしゃると思います。その理由については、前回の記事 「生成AI は なぜ人間のように言語を扱えるのか?」 をぜひご参照ください。あと前回の記事では、著名な言語学者 Chomsky が提唱した 「普遍文法」(人の脳は言語を習得するための生得的なメカニズムを備えて生まれてくるという主張)をやや軽視しているかのような印象を受けたかもしれませんが、この LLMでの 「役割分担=機能分化」 は、「普遍文法」でいう 「言語獲得装置」 と似たような役割を果たしていると言えるかもしれません。
脳とAIの響き合い
人類の進化においても、脳のサイズがある しきい値 を超えたとき、言語能力が飛躍的に拡大したのではないか、という仮説があります。もしそうなら、LLMのスケールアップと人類の言語の進化は、同一とは言わないまでも、何か思いがけない「相通じるストーリー」を背後に持っているのかもしれません。
昨今の LLMの進化はとどまるところを知りません。
次はどんな「境界線」を越えてくるのでしょうか?
われわれの脳に追いつくための次の飛躍でしょうか?
それとも、別の何かが創発してくるのでしょうか…?
今後の展開にますます目が離せません!
より詳しく知りたい方へ:参考文献
もしより深い内容にご興味がありましたら、以下の文献で深掘りできます!
- 前回の記事 「生成AI は なぜ人間のように言語を扱えるのか? ⸺ LLM と人の生存戦略との意外な関係」
-
Olsson et al. (2022) — 「In-context Learning and Induction Heads」
Transformer 内部に“Induction Head”回路が出現し、文脈内学習(ICL)を支えていることを解析的に示した研究。 -
Duan et al. (2025) — 「How Syntax Specialization Emerges in Language Models」
大規模言語モデルにおける統語的機能の内部分化(SSI)と、その学習の発達過程のメカニズムを明らかにした研究 -
Wei et al. (2022) — 「Emergent Abilities of Large Language Models」
小規模モデルではゼロだった能力が、ある規模を境に非線形的に立ち上がる“創発”を体系的に示した代表的研究。 -
Ren et al. (2024) — 「Do Large Language Models Mirror Cognitive Language Processing?」
LLM の内部表現と人間の言語脳活動(fMRI)の整合性を、モデルトレンドや事前学習データの影響と共に解析した研究。モデルサイズの増加に伴って脳適合度が上昇する傾向が示されています。 -
Aw et al. (2023) — 「Instruction‑tuning Aligns LLMs to the Human Brain」
Instruction‑tuning(指示調整)が、LLM の表現を人間の脳活動により近づける効果を実証。モデルサイズとの強い相関(r ≈ 0.95)も明示的に報告されています。 -
Antonello et al. (2023) — 「Scaling laws for language encoding models in fMRI」
複数の LLM を使い、モデル規模に対する fMRI エンコーディング性能(いわゆる Brain Score)の変化を比較。125M〜30B パラメータまでの規模で指数的改善が確認されました。
Discussion