実は各社には非公開の”コアAI”がいる
TL;DR
「モデル」と「プロダクト」の違いを理解する
ChatGPTを「モデル」だと思っている人は多いですが、より正確には「プロダクト(アプリケーション)」と捉えるのがよいです。
API経由で指定するgpt-4o-2024-08-06のような文字列が「モデル」に最も近い概念です。ChatGPTやClaude.aiは、そのモデルの上にシステムプロンプト、ガードレール、UI/UXといったラッパー(Wrapper)を被せた「製品」という位置づけになります。
コアの呼び方 — 業界用語の整理
内部にある「調整前のモデル」は、文脈によって異なる名前で呼ばれます。
| 呼び方 | 意味 | 使われる文脈 |
|---|---|---|
| base model | 事前学習(Pretrain)のみ完了したモデル | 技術論文、APIドキュメント |
| foundation model | 広範なタスクに適応可能な基盤モデル | Stanford HAI定義[1]、学術論文 |
| raw model | alignment等の調整なしのモデル | 研究者間の会話 |
| unaligned base | 指示追従・安全性調整なしのモデル | 安全性研究 |
| pretrained checkpoint | 訓練途中または完了時点の重みスナップショット | MLOps、訓練インフラ |
Stanford HAIによる「foundation model」の定義[1:1]はこうです。
【翻訳】
「基盤モデルとは、広範なデータ(通常は大規模な自己教師あり学習を用いて)で訓練され、さまざまな下流タスクに適応可能(例:微調整など)なモデルを指す」
(補足:「基盤モデル」は、GPTやBERTなど、特定のタスクに特化せず汎用的な学習を経て多様な応用が可能なモデルを分類する用語です。)
原文 & Stanford HAIとは?
“A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted (e.g., fine-tuned) to a wide range of downstream tasks”
Stanford HAIとは、
Human-Centered AI Institute
の略で、日本語にすると
スタンフォード大学人間中心の人工知能研究所
(めっちゃ長い)です。
チェックポイントとモデル公開のプロセス
事前学習には数週間から数ヶ月かかります。その間、定期的に「チェックポイント」(スナップショット)を保存します。
「100%まで訓練すれば最強」というわけではありません。過学習(Overfitting)のリスクがあり、実際には90%時点のチェックポイントの方がalignment後の性能が良いこともあります。
過学習は面白い(実例あり)
過去問を丸暗記した優等生みたいなもので、
見たことある問題には無双するけど、
初見問題にはびっくりするほど弱くなる現象です。
(ちなみに僕は過去問を丸暗記できたことがないので本当にそうなるかは知らない…)
有名な実例:Google Flu Trends
時系列で何が起きたか
- ① Googleは「インフルが流行すると、人は関連ワードを検索する」ことに着目した
- ② 検索ワード数からインフル患者数を予測するモデルを作った
- ③ 初期は公的統計(CDC)よりも早く・高精度で当たった
- ④ 数年後、予測が大きく外れ始めた
- ⑤ 原因は、検索UIの変更・ニュース報道・人々の不安行動の変化
- ⑥ 検索数は増えたが、実際の患者数は増えていなかった
何が問題だったか(過学習の正体)
- モデルは「病気の兆候」を学んだつもりで実際には「当時の検索行動のクセ」を覚えていただけだった
- その結果、入力の分布が少し変わっただけで性能が崩壊した
ポイント
精度が高かったのは「理解していたから」ではなく、
その時代のデータに最適化しきっていただけだった。
これは
「学習を進めれば進めるほど強くなる」わけではなく、
学習しすぎると”汎化能力”を失うという、典型的な過学習の例。
各社のチェックポイント公開状況
| 組織 | モデル | チェックポイント公開 | 詳細 |
|---|---|---|---|
| EleutherAI | Pythia | ✅ 154個 | 訓練全体を通じて保存、完全再現可能[2] |
| BigScience | BLOOM | ✅ 5000ステップ毎 | オプティマイザ状態も含む |
| Allen AI | OLMo | ✅ 500個以上 | 1000ステップ毎に保存 |
| Meta | LLaMA | ❌ | 最終重みのみ |
| Mistral | Mixtral | ❌ | 最終重みのみ |
| OpenAI | GPT系 | ❌ | 非公開 |
| Anthropic | Claude | ❌ | 非公開 |
公開前に何が行われるか
チェックポイントがそのまま公開されることはありません。以下のプロセスを経て「製品」になります。
Capability Eval(能力評価)
モデルの機能・能力を測定するための体系的評価です。
- 数学問題の正答率(GSM8K、MATH等のベンチマーク)
- コーディング・推論タスクの性能(HumanEval、MBPP等)
- 安全性ベンチマーク(有害応答回避など)
単に正答率を見るだけでなく、モデルがどこまで深く理解・推論できるかを数値化・比較します。公開前にどの程度の力・弱点があるのかを定量化するプロセスです。
Red-Teaming(レッドチーミング)
攻撃者視点でモデルの弱点を突くテストです。
- モデルに安全策を回避させるプロンプト
- 有害・誤誘導・危険な出力を引き出すテスト
- ガードレールを越えてしまうケースの発見
専門家が意図的に「モデルを壊しにいく」ことで、安全策が実際に効いているかを網羅的に検証します。
Alignment Research(アラインメント研究)
AIシステムが人間の意図・価値観に従うように設計・訓練する研究分野です。
alignment researchは以下2つの課題に分けられます。
| 課題 | 説明 |
|---|---|
| Outer Alignment | 設計した目的が人間意図に一致しているか |
| Inner Alignment | モデル内部の推論過程が人間意図に一致しているか |
人間の安全・価値観に合致するようロス関数・フィードバック等の設計を研究します。
Alignmentの具体的手法
RLHF(Reinforcement Learning from Human Feedback)
InstructGPT論文[3]で確立された3ステップ手法です。
InstructGPT論文の重要な発見[3:1]はこうです。
【翻訳】
「1.3Bパラメータの InstructGPT モデルの出力は、100倍のパラメータを持つ175B GPT-3 の出力よりも好まれた」
つまり、1.3Bパラメータのalignedモデルが175Bのunalignedモデルを上回る — スケールよりalignmentが重要という示唆です。
原文
“Outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters.”
Constitutional AI(Anthropic)
Anthropicが開発した手法で、RLHFの「人間によるラベル付け」をAI自身に置き換えます[4]。
【翻訳】
「私たちは、有害な出力を特定する人間のラベルなしに、自己改善を通じて無害なAIアシスタントを訓練する方法を実験しています。唯一の人間の監視はルールや原則のリストを通じて提供されるため、この方法を『Constitutional AI(憲法的AI)』と呼んでいます」
原文
“We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as ‘Constitutional AI’.”
RLHFでは人間がモデル出力の優劣をラベル付けするのに対し、Constitutional AIではAIモデル自身が憲法的原則に基づいて出力を評価(RLAIF: RL from AI Feedback)します。これにより人間のラベリング負荷を大幅に削減しつつ、harmlessness向上を実現しています。
そのコアは触れるの?
OpenAI — 制限緩和の予告
OpenAI CEOのSam Altmanは2025年10月14日、Xで以下のように投稿しました[5]。
【翻訳】
「12月に年齢確認機能をより本格的に展開し、『大人のユーザーを大人として扱う』という原則の一環として、認証済み成人向けのエロティカなど、さらに多くのコンテンツを許可する予定です」
原文
“In December, as we roll out age-gating more fully and as part of our ‘treat adult users like adults’ principle, we will allow even more, like erotica for verified adults.”
これは「base modelそのもの」の公開ではありませんが、従来の制限を大幅に緩和したモデルの提供を意味します。2025年2月のModel Spec更新で「AI paternalism(AIによる過保護・父権的干渉)」からの脱却として、適切な文脈での性的・暴力的コンテンツ生成のルールを緩和したことの延長線上にあります[6]。
Meta — base寄りのモデルを公開
MetaはLLaMAシリーズで、同一モデルファミリー内で複数形態をリリースしています[7]。
| モデル | 説明 |
|---|---|
| Llama 3 (base) | 事前学習のみ、instruction tuningなし |
| Llama 3-Chat | 会話向けにalignmentを施したバージョン |
| Llama 3-Code | コード生成に特化した派生版 |
base版は指示に従う能力が限定的ですが、研究者やエンジニアが独自のalignmentを施すための出発点として有用です。
Mistral — Apache 2.0で公開
Mixtral 8x7B[8]は、MoE(後述)アーキテクチャの詳細まで論文で公開しており、Apache 2.0ライセンス(最も許容的)で利用可能です。
コア自体が変わったモデル — 世代交代の見分け方
コアは基本的に蓄積・改善されていきますが、ときに「フルモデルチェンジ」が行われます。
世代交代の判断材料
| 変更 | マイナーアップデート | メジャーアップデート(世代交代) |
|---|---|---|
| 訓練データ | 追加・更新 | 分布の大規模変更 |
| アーキテクチャ | 同一 | MoE化、層構造変更など |
| 学習 | 継続学習 | ゼロからの再事前学習 |
| 例 | GPT-4 → GPT-4o | GPT-3 → GPT-4 |
ドキュメントのどこを見るか
各社のTechnical ReportやModel Cardには、アーキテクチャ情報が記載されています(または意図的に非公開と明記されています)。
OpenAI GPT-4 Technical Report[9]:
【翻訳】
「競争環境とGPT-4のような大規模モデルの安全性への影響を考慮し、本レポートではアーキテクチャ(モデルサイズを含む)、ハードウェア、訓練計算量、データセット構築、訓練方法などの詳細は記載しない」
原文
“Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.”
OpenAIは競争環境と安全性への影響の2つを理由に、詳細を非公開としています。
Anthropic Claude Model Card[10]:
【翻訳】
「Transformerアーキテクチャを使用している」
原文
“They use a transformer architecture”
アーキテクチャタイプ(Transformer)は明言されていますが、パラメータ数やレイヤー構成は非公開です。
Google Gemini Blog[11]:
【翻訳】
「これには、Gemini 1.5の訓練と提供をより効率的にするための、新しいMixture-of-Experts(MoE)アーキテクチャが含まれる」
原文
“This includes making Gemini 1.5 more efficient to train and serve, with a new Mixture-of-Experts (MoE) architecture.”
GoogleはGemini 1.5以降でMoE採用を公式に明言しています。
「よく考えるモデル」の仕組み
OpenAI o1やClaude Extended Thinkingのような「考えるモデル」は、どう実現されているのでしょうか。
2つの軸を分けて理解する
「考える」能力は、checkpoint(重み) と 推論方式(runtime) の組み合わせで決まります。
同じcheckpointでも推論方式を変えれば「速い版」「考える版」が作れます。逆に、考えるように訓練されたcheckpointでも、推論時間を制限すれば速くなります。
主な推論戦略
| 手法 | 論文 | 概要 |
|---|---|---|
| Self-Consistency[12] | Wang et al., 2022 | 複数の推論パスをサンプリングし、多数決で最終回答を選択 |
| Tree of Thoughts[13] | Yao et al., 2023 | 複数の推論分岐を探索し、評価・バックトラック可能 |
| Deliberative Alignment | OpenAI o1 System Card[14] | 安全性仕様について明示的に推論してから回答生成 |
Claude Extended Thinkingの公式説明
Anthropicは Extended Thinking について以下のように説明しています[15]。
【翻訳】
「Extended thinkingモードは、別のモデルに切り替えたり別の戦略を使うオプションではありません。代わりに、同じモデルがより多くの時間をかけ、より多くの労力を費やして回答に至ることを可能にするものです」
原文
“Extended thinking mode isn’t an option that switches to a different model with a separate strategy. Instead, it’s allowing the very same model to give itself more time, and expend more effort, in coming to an answer.”
つまり、モデル自体は同じで、推論時間(思考トークン数)を増やすことで性能向上を実現しています。budget_tokensパラメータで「思考予算」を制御可能です。
重要な注意書きもあります。
【翻訳】
「思考プロセスに表示される内容が、モデルの内部で実際に起きていることを真に表しているかどうかは確実ではありません…モデルは思考プロセスで明示的に議論しない要因に基づいて決定を下すことが非常に多いです」
原文
“We don’t know for certain that what’s in the thought process truly represents what’s going on in the model’s mind… models very often make decisions based on factors that they don’t explicitly discuss in their thinking process.”
Chain-of-Thought(CoT)— 「考えるモデル」の核心
そもそもCoTとは?
Chain-of-Thought(CoT)とは、「答えをいきなり出すのではなく、途中の思考ステップを明示しながら推論する」手法です。
たとえば「17 × 24 は?」という問いに対して:
| 通常の回答 | CoTを使った回答 |
|---|---|
| 408 | まず17×20=340、次に17×4=68、合計340+68=408 |
人間が暗算するときに頭の中でやっていることを、モデルにも「書き出させる」イメージです。
なぜCoTが重要なのか?
CoTが注目される理由は主に2つあります。
① 複雑な問題で精度が上がる
数学、論理パズル、多段階の推論など、一発で答えを出すのが難しい問題でCoTを使うと正答率が大幅に向上します。
② 思考過程が見える
モデルが「なぜその答えに至ったか」が可視化されるため、間違いの原因を特定しやすくなります。
CoTは「教えなくても出る」のか?
ここで疑問が生まれます。CoTは事前学習だけで自然に身につくのか、それとも後から訓練で教え込む必要があるのか?
Wei et al. (2022) の発見[16]
【翻訳】
「思考連鎖(一連の中間的な推論ステップ)を生成することで、大規模言語モデルが複雑な推論を行う能力が大幅に向上することを探求した」
原文
“We explore how generating a chain of thought – a series of intermediate reasoning steps – significantly improves the ability of large language models to perform complex reasoning.”
CoTの恩恵は約1000億パラメータ以上のモデルで出現します。小規模モデルではむしろ性能が低下する場合もあります。
答え: 部分的にYes、ただし訓練で強化される
- 大規模モデルは訓練データにステップバイステップの推論コンテンツを含む
- 事前学習のみでも、プロンプト次第でCoTが生成されることがある
- ただし、instruction tuningやRLHFにより品質は大幅に向上する
o1、DeepSeek R1等の「考えるモデル」は、自動検証可能な問題に対する強化学習でCoT能力を顕著に向上させています。
もうちょっと深掘ってみた
ここからは、LLMの内部実装やアーキテクチャについてより技術的に掘り下げていきます。
Mixture of Experts(MoE)とは何か
MoEは「巨大な脳を、全部同時に使わず、必要な専門家だけ呼び出す構造」です。
Dense vs MoE
| 項目 | Dense | MoE |
|---|---|---|
| 例 | 1000億パラメータ → 毎回1000億使う | 1兆パラメータ中、50Bだけ使う |
| 賢さ | パラメータ数に比例 | 総パラメータ数に近い |
| 推論コスト | 高い | 低い(活性化パラメータのみ) |
Routerは学習されるのか?
Yes。勾配ベースで学習されます。
Switch Transformer論文[17]で確立された設計です。
【翻訳】
「MoEルーティングアルゴリズムを簡素化し、通信コストと計算コストを削減した直感的で改良されたモデルを設計した」
原文
“We simplify the MoE routing algorithm and design intuitive improved models with reduced communication and computational costs.”
従来のMoEがtop-k(複数expert選択)を採用していたのに対し、Switch Transformerはtop-1ルーティング(各トークンが1つのexpertのみを通過)に簡略化しました。
Routerの学習メカニズム[18]はこうです。
【翻訳】
「ゲーティングネットワークは、バックプロパゲーションを通じてexpertと共同で訓練される…損失の勾配がゲーティングネットワークのパラメータに流れ込み(ルーティング決定を改善するよう導く)、選択されたexpertにも流れ込む」
原文
“The gating network is trained jointly with the experts via backpropagation… The loss gradients flow into the gating network parameters (guiding it to improve routing decisions) and into the selected experts.”
各社のMoE採用状況
| 会社 | モデル | MoE採用 | 根拠 |
|---|---|---|---|
| Gemini 1.5 | ✅ 公式発表 | Google Blog, Jeff Dean Twitter[19] | |
| Mistral | Mixtral 8x7B | ✅ 論文公開 | arXiv:2401.04088[8:1] |
| OpenAI | GPT-4 | ❓ 未確認 | 公式発表なし |
| Anthropic | Claude | ❓ 未確認 | Model Cardに記載なし |
MoEはHallucinationを起こしやすいのか?
学術的根拠は見つかりませんでした。
MoEアーキテクチャとハルシネーション率の因果関係を実証的に比較した査読付き論文は確認できませんでした。むしろ逆に、MoE-LLaVA論文では「LLaVA-1.5-13Bをobject hallucination benchmarkで上回る」と報告されており、MoEがハルシネーションを低減する可能性を示唆しています。
さらに深く調べたいときのキーワード
この領域をさらに探求したい場合、以下のキーワードで検索すると関連研究にアクセスできます。
MoE関連
| キーワード | 調べられること |
|---|---|
| Router collapse | Routerが特定のexpertに偏る問題 |
| Expert specialization | 各expertが何を学習しているかの分析 |
| Load balancing loss | expert間の負荷を均等にする損失関数 |
| Expert Choice routing | tokenがexpertを選ぶのではなく、expertがtokenを選ぶ逆方向の設計[20] |
Alignment関連
| キーワード | 調べられること |
|---|---|
| RLHF vs DPO | RLHFの代替手法としてのDirect Preference Optimization |
| Reward hacking | 報酬モデルを騙してしまう問題 |
| Scalable oversight | AIが人間を超えたときの監視手法 |
| Interpretability | モデル内部で何が起きているかの解析 |
推論戦略関連
| キーワード | 調べられること |
|---|---|
| Test-time compute | 推論時に計算量を増やすことで性能向上 |
| Verifier-guided search | 検証器で正解確率の高いパスを選択 |
| Process reward model | 最終答えだけでなく推論過程も評価 |
参考文献
学術論文(arXiv)
| トピック | arXiv ID | 主著者 |
|---|---|---|
| Switch Transformer | 2101.03961 | Fedus et al. |
| GPT-4 Technical Report | 2303.08774 | OpenAI |
| Constitutional AI | 2212.08073 | Bai et al. |
| Chain-of-Thought | 2201.11903 | Wei et al. |
| Self-Consistency | 2203.11171 | Wang et al. |
| Tree of Thoughts | 2305.10601 | Yao et al. |
| RLHF Original | 1706.03741 | Christiano et al. |
| InstructGPT | 2203.02155 | Ouyang et al. |
| Foundation Models | 2108.07258 | Bommasani et al. |
| LLaMA 3 | 2407.21783 | Meta AI |
| Mixtral | 2401.04088 | Jiang et al. |
| o1 System Card | 2412.16720 | OpenAI |
公式ドキュメント
- Claude 3 Model Card: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
- Claude Extended Thinking: https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
- Gemini 1.5 Blog: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
- OLMo: https://allenai.org/olmo
- Pythia: https://github.com/EleutherAI/pythia
まとめ
理解チェック
以下の質問に答えられますか?
Q1: 「ChatGPT」は何か?
答えを見る
ChatGPTは**プロダクト(アプリケーション)**であり、モデルそのものではありません。内部ではgpt-4o等のモデルが動いており、その上にシステムプロンプト、ガードレール、UI/UXが被さっています。
Q2: 「base model」と「aligned model」の違いは?
答えを見る
base modelは事前学習(Pretrain)のみ完了したモデルで、指示に従う能力は限定的です。aligned modelはbase modelにRLHFやConstitutional AI等の調整を施し、人間の意図に沿うようにしたモデルです。
Q3: 同じコア(checkpoint)から、なぜ「速いモデル」と「考えるモデル」が生まれるのか?
答えを見る
「考える」能力は**checkpoint(重み)と推論方式(runtime)**の組み合わせで決まります。同じcheckpointでも推論時間を増やしたり、Self-ConsistencyやTree of Thoughtsといった戦略を適用することで「考える」挙動を実現できます。
-
Bommasani et al., “On the Opportunities and Risks of Foundation Models”, arXiv:2108.07258, 2021 ↩︎ ↩︎
-
Pythiaプロジェクト: “We provide public access to 154 checkpoints for each one of the 16 models, alongside tools to download and reconstruct their exact training dataloaders for further study.” https://github.com/EleutherAI/pythia ↩︎
-
Ouyang et al., “Training language models to follow instructions with human feedback”, arXiv:2203.02155, NeurIPS 2022 ↩︎ ↩︎
-
Bai et al., “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073, 2022 ↩︎
-
Sam Altman (@sama) on X, October 14, 2025: https://x.com/sama/status/1978129344598827128 ↩︎
-
Fortune, “Sam Altman wants to ‘treat adults like adults’—but can OpenAI keep ChatGPT safe after opening the door to erotica?”, October 20, 2025 ↩︎
-
Llama Team, “The Llama 3 Herd of Models”, arXiv:2407.21783, 2024 ↩︎
-
Jiang et al., “Mixtral of Experts”, arXiv:2401.04088, 2024 ↩︎ ↩︎
-
OpenAI, “GPT-4 Technical Report”, arXiv:2303.08774, 2023 ↩︎
-
Anthropic, “Model Card and Evaluations for Claude Models”, https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf ↩︎
-
Google Blog, “Introducing Gemini 1.5, Google’s next-generation AI model”, February 15, 2024 ↩︎
-
Wang et al., “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, arXiv:2203.11171, ICLR 2023 ↩︎
-
Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, arXiv:2305.10601, NeurIPS 2023 ↩︎
-
OpenAI, “o1 System Card”, arXiv:2412.16720, 2024 ↩︎
-
Anthropic Blog, “Claude’s extended thinking”, February 24, 2025: https://www.anthropic.com/news/visible-extended-thinking ↩︎
-
Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, arXiv:2201.11903, NeurIPS 2022 ↩︎
-
Fedus, Zoph, Shazeer, “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”, arXiv:2101.03961, 2021 ↩︎
-
Shazeer et al., “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”, arXiv:1701.06538, ICLR 2017 ↩︎
-
Jeff Dean (@JeffDean) on X, February 2024: “Gemini 1.5 Pro uses a mixture-of-expert (MoE) architecture” ↩︎
-
Zhou et al., “Mixture-of-Experts with Expert Choice Routing”, arXiv:2202.09368, NeurIPS 2022 ↩︎
Discussion