🌊

もう少しわかりやすくした。人間の好みに基づくモデル最適化手法の比較と解説

2025/03/19に公開

別のブログで書いた手法を、もう少しわかりやすく解説しました

InstructGPT (OpenAI) - 強化学習を用いた事前学習モデルの微調整

Constitutional AI (Anthropic) - 人間の価値観に沿った応答を学習するフレームワーク

Direct Preference Optimization (Stanford) - 報酬モデルを経由せずに直接最適化する手法

KL-constrained Preference Optimization - 事前学習モデルからの逸脱を制限しつつ選好を学習

 1. InstructGPT (OpenAI)概要:

InstructGPTは、OpenAIが開発した手法で、強化学習を用いて事前学習済みモデルを人間の指示（プロンプト）に対してより適切に応答できるように最適化する方法です。
技術的アプローチ:
事前学習済みのGPT-3を基に、まず人間のラベル付けによるデータセットを作成。
これを用いて「報酬モデル（Reward Model）」を訓練し、応答の良し悪しをスコアリング。
その報酬モデルを強化学習（Reinforcement Learning with Human Feedback: RLHF）で活用し、ポリシー（生成モデル）を最適化。
具体例:

例えば、以下のような2つの応答があったとします。
応答 A: "地球温暖化の原因は二酸化炭素の増加です。"
応答 B: "地球温暖化は二酸化炭素やメタンガスの増加による影響が大きいです。"
人間のフィードバックによりBが好ましいと評価され、報酬モデルがそれを学習。結果として、将来的な出力がBに近づくよう強化学習されます。
メリット:
人間のフィードバックを直接活用できるため、品質の向上が期待できる。
既存のGPTモデルをベースにできるため、学習コストを抑えつつ精度を向上。
デメリット:
報酬モデルのバイアスが学習結果に影響を与える可能性。
RLHFの学習プロセスが計算コストと時間を要する。

 2. Constitutional AI (Anthropic)概要:

Constitutional AI（憲法的AI）は、Anthropicが提案したフレームワークで、人間の倫理観や価値観を明示的に組み込みながらAIを学習させる手法です。
技術的アプローチ:
モデルが応答を生成する際に「憲法（Constitution）」として定めた一連の原則を考慮。
RLHFに頼ることなく、AIが自ら望ましい応答を学習できるように誘導。
AIが生成した応答を自己評価し、価値観に基づいたフィードバックを行うことで、より倫理的な出力を促す。
具体例:

モデルが次のような応答を出すとします。
応答 A: "暴力行為を推奨する内容"
応答 B: "暴力は推奨されるべきでない"
憲法として「暴力を助長しない」と明記されていれば、Bのほうが望ましいと判断され、AIがBを選択する方向へと最適化されます。
メリット:
人間によるフィードバックのコストを削減。
一貫性のある倫理的ルールを持たせることで、望ましくない出力の発生を抑制。
デメリット:
「憲法」の設計が難しく、社会的な価値観の変化に対応しづらい。
モデルが憲法のルールをどの程度理解・遵守できるかが課題。

 3. Direct Preference Optimization (DPO) (Stanford)概要:

Direct Preference Optimization（DPO）は、スタンフォード大学が提案した新しい手法で、従来のRLHFのように報酬モデルを介さず、ユーザーの選好（Preference）に直接最適化を行うアプローチです。
技術的アプローチ:
人間が選んだ好ましい応答（Preferred）と好ましくない応答（Dispreferred）をデータセットとして収集。
これらのデータを使い、ポリシーのパラメータを直接最適化。
具体例:

応答 A, Bに対し、人間が以下のように評価。
A（望ましい応答）: ベクトル [0.8, 0.2]
B（望ましくない応答）: ベクトル [0.3, 0.7]
DPOは、学習プロセスでBの確率を減らし、Aの確率を増やすようにモデルを更新します。
メリット:
RLHFよりも学習コストが低く、効率的。
報酬モデルのバイアス問題を回避できる。
デメリット:
明示的な報酬モデルがないため、選好データの質に依存。
より複雑なタスクではRLHFほどの精度を出しづらい可能性。

 4. KL-constrained Preference Optimization概要:

KL-constrained Preference Optimizationは、事前学習済みのLLMが持つ知識や性質を保持しつつ、選好データを用いて最適化を行う手法です。
技術的アプローチ:
事前学習済みモデルからの逸脱を抑えるために、KLダイバージェンス（Kullback-Leibler divergence）を制約として導入。
具体例:

モデルの確率分布 P と、事前学習済みモデルの確率分布 Q があるとします。
KL(P || Q) = Σ P(x) log(P(x) / Q(x))
このKLダイバージェンスが大きくなりすぎないよう調整しながら、新しい選好に適応します。
メリット:
事前学習モデルの知識を保持しながら最適化可能。
デメリット:
KL制約の設定が適切でないと、最適な学習ができない可能性。
これらの手法は、応用に応じて使い分ける必要があります。

1. InstructGPT (OpenAI)

2. Constitutional AI (Anthropic)

3. Direct Preference Optimization (DPO) (Stanford)

4. KL-constrained Preference Optimization

Discussion