🚀

LLMの土台:ディープラーニングがなぜすごいのか?

に公開

ディープラーニングと従来型機械学習の違い

従来型(ざっくり)

  • 人が特徴量(キモとなる数値表現)を手作業で作る → 学習器(分類や予測の最終ステップを担うアルゴリズム)が分類。

ディープラーニング

  • ニューラルネットが生データから特徴も判別もまとめて学ぶ(end-to-end)。
  • 十分なデータと計算資源があるほど性能が伸びやすい(人手特徴を超えやすい)。

要するに:
「人が特徴を作る時代 → モデル自身が良い特徴を見つける時代」になった、が一番の違い。

用語まるっと整理

モデルとは?

パラメータ(重み)で定義された関数。
中には埋め込み行列(トークン→ベクトルの変換)などの学習可能な部品がある。
データベースではない(知識は検索ではなく関数の形で染み込んでいるイメージ)。

パラメータとは?

学習で更新される数値(行列)。
生成系では、入力文のあとに来るトークンの確率分布を計算するのに使われる。

LLM(GPTなど)はどう学ぶの?

1) 事前学習(pretraining)=自己教師あり学習

次のトークンを当てる(Next-Token Prediction)ことで学習する。
人手ラベルは不要。ネット上の大量テキストそのものが教師になる。
これで言語の一般的なパターンや知識を広く獲得。

2) 微調整(fine-tuning)

教師あり微調整(Instruction Tuning):
すでに育っているモデルを特定のタスクやドメインに特化させる。

モデルを大きくするとゼロ/ワン/フューショットが効きやすくなる。
※LLM(大規模言語モデル)の「大きさ」は主に2つで測られます:

  • パラメータ数:数十億〜数千億の重み(学習される数字)がある。
  • 学習データ量:モデルを訓練するために使ったテキストの量。

※ゼロショット学習・・・事前にサンプルを与えられることなくまったく新しいタスクに汎化
※フューショット学習・・・ごく限られたサンプルから学習

なぜディープラーニングはすごいのかまとめ

  • 自分で良い見方を覚える:画像の縞やテキストの文脈など、人が説明しづらい特徴を階層的に自動学習。
  • 大きくするほど素直に強くなる:データ・計算・モデル規模を増やすと性能が伸びやすい傾向。
  • 学んだ知識を流用できる:大規模に学んだ土台を、少ない追加データで別タスクに転用。

例:「私はリンゴを食べ…」→「た/る/ます…」に確率を振る(語彙全体に割り振る)。
出力はサンプリング(確率が高いものからランダムに選ぶ)で選ぶから、自然さと多様性を両立。

Discussion