Open3
【LLM】DPO、強化学習GRPOについて📝

Direct Preference Optimization (DPO)について📝

強化学習GRPO (Group Relative Policy Optimization)について📝
強化学習📝

GRPO (Group Relative Policy Optimization) とは?
GRPO (Group Relative Policy Optimization) とは、大規模言語モデル(LLM)の学習効率を向上させるための強化学習手法の一つです。
特に、計算コストの高い価値モデルを必要とせず、複数の生成結果を比較して学習を進めることで、少ない計算資源で効率的な学習を可能にします。
GRPOの主な特徴:
1. 価値モデルの省略:
従来の強化学習(PPOなど)では、行動を評価するための価値モデルが必要でしたが、GRPOではこれを省略します。
2. グループ相対評価:
複数の生成結果をグループ化し、グループ内で相対的に良いものを選択して学習を進めます。
3. 安定した学習:
価値モデルがないため、学習が安定しやすく、より効率的な学習が可能です。
4. 計算資源の削減:
価値モデルの計算が不要になるため、少ない計算資源で大規模なLLMを学習できます。
5. 多様な出力の生成:
複数の出力を比較することで、多様な出力が生成される可能性があります。
GRPOの具体的な仕組み:
- 複数出力の生成:
1つの入力に対して、複数の異なる出力を生成します。 - 報酬のグループ化:
生成された出力に対して報酬を計算し、それらをグループ化します。 - 相対的な評価:
グループ内で、最も報酬の高い出力(または上位の出力)を選択し、その出力に基づいてモデルを更新します。 - 学習の継続:
このプロセスを繰り返すことで、モデルはより良い出力を生成するように学習します。
GRPOが注目される理由:
- LLMの学習効率向上:
価値モデルを省略することで、計算コストを大幅に削減し、大規模なLLMの学習を効率的に行うことができます。 - 少ない計算資源での学習:
少ないGPUメモリで学習できるため、個人や小規模な研究室でも大規模言語モデルの学習が可能になります。 - 多様な出力の生成:
複数の出力を比較することで、より多様な回答を生成できるようになり、LLMの表現力が向上します。