🤖

LLMにおける強化学習の基礎

に公開

大規模言語モデル(LLM)の学習手法は急速に進化しており、従来の教師あり学習から強化学習へのパラダイムシフトが起きています。本稿では、機械学習の基礎知識をお持ちの読者を対象に、LLMにおける強化学習の理論的基盤と実践的応用について解説します。この新しいアプローチがなぜ必要であり、どのように機能するかを理論的観点から明らかにします。

従来のLLM学習の限界が明らかになった理由

事前学習と教師あり学習の仕組み

現在のLLMは、主に2段階の学習プロセスを経て構築されます。第一段階の事前学習/pre-trainingでは、数兆トークンに及ぶ膨大なテキストデータを用いて、次トークン予測(next token prediction)タスクを学習します。この自己教師あり学習により、モデルは言語の統計的パターンと汎用的な知識を獲得します。

第二段階の教師あり微調整/Supervised Fine-Tuning: SFTでは、人間が作成した高品質なプロンプト-レスポンスペアを用いて、モデルを特定のタスクや指示に従わせるように調整します。この段階での学習は、最大尤度推定(Maximum Likelihood Estimation: MLE)に基づいており、以下の損失関数を最小化します:

\mathcal{L}_{MLE}(\theta) = -\sum_{t=1}^{T} \log P_\theta(y_t | y_{<t}, x)

ここで、xは入力プロンプト、y_tは時刻tにおける目標トークン、y_{<t}はそれまでに生成されたトークン列を表します。

最大尤度推定の根本的な問題

この従来のアプローチには、いくつかの根本的な限界が存在します。まず、露出バイアス/exposure biasと呼ばれる問題です。訓練時にはモデルは常に正解のトークン列を条件として次のトークンを予測しますが、推論時には自身が生成したトークンを条件として使用します。訓練中は文法的に正しい文章を使ったとしましょう。推論時にうっかり文法ミスをしてしまうと、そのミスに引きずられてどんどん文法ミスを犯すかもしれません。この訓練時と推論時の分布のミスマッチにより、誤りが累積的に増大する可能性があります。

さらに重要なのは、最大尤度推定が人間の価値観や好みを直接的に反映しないという点です。統計的に最も可能性の高い出力が、必ずしも人間にとって最も望ましい出力とは限りません。例えば、インターネット上のテキストには偏見、誤情報、有害なコンテンツが含まれており、単純な尤度最大化はこれらの望ましくない特性も学習してしまいます。

また、複雑な推論タスクにおいて、長期的な依存関係や論理的一貫性を保つことが困難です。トークンレベルの局所的な最適化では、文章全体としての論理的整合性や目的達成を保証できません。

強化学習の基本概念とLLMへの適用方法

テキスト生成をマルコフ決定過程として捉える

LLMにおける強化学習を理解するために、まずテキスト生成プロセスをマルコフ決定過程(Markov Decision Process: MDP)として定式化します。MDPは (S, A, P, R, \gamma) の5つ組で表され、それぞれ以下のように定義されます:

  • 状態空間 S:各状態 s_t = (x, y_{<t}) は、入力プロンプトxとこれまでに生成されたトークン列 y_{<t} の組み合わせで表現される
  • 行動空間 A:各行動は語彙表 V からの次トークンの選択を表す(通常50,000〜100,000トークン)
  • 状態遷移確率 P:決定論的遷移(選択されたトークンが確実に追加される)
  • 報酬関数 R:通常、シーケンス完了時にのみ報酬 R(x, y) が与えられる
  • 割引因子 \gamma:多くの場合1.0(文章生成が有限長であり、将来の報酬を割り引く必要がないため)

方策としてのLLM

この枠組みにおいて、LLMは方策(policy) \pi_\theta(a_t|s_t) として機能します。これは、現在の状態(プロンプトと生成済みテキスト)を入力として、次のトークンの確率分布を出力するものです。数学的には、LLMの出力層のsoftmax関数がこの方策を実現しています:

\pi_\theta(a_t|s_t) = \frac{\exp(f_\theta(s_t, a_t))}{\sum_{a' \in V} \exp(f_\theta(s_t, a'))}

ここで、f_\theta はパラメータ \theta を持つニューラルネットワークです。

価値関数と最適化目標

強化学習の目標は、期待累積報酬を最大化する最適方策 \pi^* を見つけることです。状態価値関数 V^\pi(s) は、状態 s から方策 \pi に従って行動した場合の期待累積報酬を表します:

V^\pi(s) = \mathbb{E}_{\pi}\left[\sum_{t=0}^{T} \gamma^t R(s_t, a_t) | s_0 = s\right]

LLMの文脈では、通常エピソード(文章生成)の最後にのみ報酬が与えられるため、中間状態での即時報酬はゼロです。この設定は、文章全体の品質を評価するという実際の使用場面に即したものです。

なぜLLMに強化学習が必要なのか

アライメント問題の本質

LLMの開発において最も重要な課題の一つがアライメント問題です。これは、AIシステムの行動を人間の価値観、意図、好みと整合させる問題を指します。単純な次トークン予測の学習では、モデルは訓練データに含まれるあらゆるパターンを無差別に学習してしまいます。

アライメント問題は、以下の3つの原則(HHH原則)に集約されます:

  1. Helpful(役立つ):ユーザーの意図を正確に理解し、有用な情報や支援を提供すること
  2. Harmless(無害):差別的、攻撃的、違法なコンテンツを生成しないこと
  3. Honest(正直):事実に基づく情報を提供し、不確実性を適切に表現すること

これらの原則は相互に矛盾する場合があります。例えば、ユーザーが有害な情報を求めた場合、「役立つ」ことと「無害」であることの間にトレードオフが生じるのです。

人間の価値観との整合性

人間の価値観は複雑で、文化的背景や個人差によって大きく異なります。さらに、多くの価値判断は文脈依存的であり、単純なルールベースのアプローチでは対応できないのです。例えば、医療情報の提供において、一般的な健康アドバイスと専門的な医療診断の境界をどこに引くかは、状況によって異なる判断が必要です。

強化学習は、人間のフィードバックを直接的に学習プロセスに組み込むことで、この複雑な価値観の学習を可能にします。人間が実際のモデル出力を評価し、その評価を報酬信号として用いることで、暗黙的な価値観や判断基準を学習できます。

最大尤度推定の限界を超えて

従来の最大尤度推定には、以下のような構造的な限界があります:

  1. 局所最適化の問題:各トークンの予測を独立に最適化するため、文章全体としての品質を保証できない
  2. 多様性の欠如:単一の「正解」に過度に適合し、創造的な応答が困難になる
  3. 長期的計画の欠如:複雑な推論や段階的な問題解決を必要とするタスクで性能が限定的になる

強化学習では、文章全体に対する報酬を通じて、グローバルな最適化が可能です。これにより、論理的一貫性、創造性、長期的な目標達成といった、より高次の品質指標を直接最適化できるのです。

LLMにおける強化学習の実装プロセス

報酬モデルの学習

強化学習の第一段階は、**報酬モデル(Reward Model)**の構築です。報酬モデルは、プロンプトと応答のペア (x, y) を入力として、その品質を表すスカラー値 r_\theta(x, y) を出力します:

r_\theta(x, y) = \text{RewardModel}_\theta(\text{concat}(x, y))

通常、報酬モデルは事前学習済みのLLMと同じアーキテクチャを使用し、最終層を回帰ヘッドに置き換えて構築されるものです。

報酬モデルの学習には、Bradley-Terryモデルが広く使用されます(参考)。これは、2つの応答 y_1, y_2 に対する人間の選好を確率的にモデル化します:

P(y_1 \succ y_2 | x) = \frac{\exp(r(x, y_1))}{\exp(r(x, y_1)) + \exp(r(x, y_2))}

ここで、\sigma はシグモイド関数、y_1 \succ y_2 は「y_1y_2 より好まれる」ことを表します。この確率モデルに基づいて、以下の損失関数を最小化します:

\mathcal{L}_{BT} = -\sum_{(x,y_w,y_l) \in D} \log \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))

ここで、D は人間による比較データセット、y_w は好まれる応答、y_l は劣る応答を表します。

方策の最適化

報酬モデルが学習されたら、次に方策の最適化を行います。強化学習の目的は、期待報酬を最大化しつつ、元の方策から大きく逸脱しないようにすることです:

\mathcal{J}(\theta) = \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot|x)}[r(x, y)] - \beta \cdot D_{KL}[\pi_\theta || \pi_{ref}]

ここで、\pi_{ref} は参照方策(通常はSFT後のモデル)、D_{KL} はKullback-Leiblerダイバージェンス、\beta は正則化の強さを制御するハイパーパラメータを示します。

この最適化問題は、一般的にProximal Policy Optimization(PPO)などのアルゴリズムを用いて解かれます。本稿では個別のアルゴリズムの詳細には立ち入らず、概念的な理解に焦点を当てていますが、PPO、GRPO、DAPO、CISPOなどの具体的なアルゴリズムについては続く記事で詳しく解説する予定です。重要なのは、この最適化により、モデルは報酬を最大化する方向に学習しながら、元の言語能力を保持できるのです。

結論と今後の展望

LLMにおける強化学習は、従来の教師あり学習の限界を克服し、より人間の価値観に整合したシステムを構築するための重要な技術です。マルコフ決定過程としてのテキスト生成の定式化、報酬モデルによる人間の好みの学習、そして方策最適化による性能向上という一連のプロセスを通じて、LLMは単なる統計的パターンの模倣を超えた能力を獲得する可能性を秘めています。
この強化学習パラダイムが重要な理由は、人間の複雑で主観的な価値観を学習に直接組み込める点にあります。従来の最大尤度推定では捉えきれない「有用性」「安全性」「創造性」といった品質を、人間のフィードバックを通じて最適化することが可能となります。
今後の課題として、以下の点が挙げられます:

  • 報酬ハッキングの防止:モデルが報酬モデルの脆弱性を悪用することを防ぐ機制の開発
  • 多様な価値観への対応:文化的背景や個人差を考慮した、より包括的なアライメント手法
  • 計算効率の向上:強化学習の計算コストを削減し、実用的な展開を促進する技術
  • 解釈可能性の向上:強化学習によって獲得された能力をより理解しやすくする手法

強化学習という新しいパラダイムは、より知的で信頼できるAIシステムの実現に向けた重要な一歩です。特に、人間の価値観との整合性という根本的な課題に対して、理論的に妥当で実践的に有効なアプローチを提供しています。
本稿では強化学習の基礎的な概念と理論的枠組みに焦点を当てました。続く記事では、PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)、DAPO(Direct Preference Optimization with Advantage)、CISPO(Clipped Importance Sampling Policy Optimization)などの具体的なアルゴリズムの詳細な仕組みと実装、さらにはOpenAI o1、DeepSeek-R1、MiniMax-M1といった最先端モデルの成功事例について詳しく解説する予定です。

Discussion