Open2ヶ月前にコメント追加3

【LLM】DPO、強化学習GRPOについて📝

機械学習

まさぴょん🐱

 Direct Preference Optimization (DPO)について📝https://note.com/daichi_mu/n/n1779066e8c61
https://arxiv.org/abs/2305.18290
https://developer.nvidia.com/ja-jp/blog/how-to-use-dpo-on-nemo-framework-in-japanese/
https://qiita.com/hiyoko1729/items/40fe91aae203f3f8d999
https://cn.teldevice.co.jp/blog/p56068/

まさぴょん🐱

 強化学習GRPO (Group Relative Policy Optimization)について📝https://qiita.com/pocokhc/items/b50a56febeab2c990bea

 強化学習📝https://qiita.com/nishiha/items/5420849421b07bcb61fd
https://note.com/daikinishimatsu/n/n749a6f743a9f

まさぴょん🐱

 GRPO (Group Relative Policy Optimization) とは？GRPO (Group Relative Policy Optimization) とは、大規模言語モデル（LLM）の学習効率を向上させるための強化学習手法の一つです。

特に、計算コストの高い価値モデルを必要とせず、複数の生成結果を比較して学習を進めることで、少ない計算資源で効率的な学習を可能にします。
!GRPOは、LLMの学習における計算コストの問題を解決し、より効率的で多様な学習を可能にする、革新的な強化学習手法として注目されています。
なかでもDeepSeekなどのLLMで採用され、注目を集めています。

 GRPOの主な特徴:
 1. 価値モデルの省略:従来の強化学習（PPOなど）では、行動を評価するための価値モデルが必要でしたが、GRPOではこれを省略します。

 2. グループ相対評価:複数の生成結果をグループ化し、グループ内で相対的に良いものを選択して学習を進めます。

 3. 安定した学習:価値モデルがないため、学習が安定しやすく、より効率的な学習が可能です。

 4. 計算資源の削減:価値モデルの計算が不要になるため、少ない計算資源で大規模なLLMを学習できます。

 5. 多様な出力の生成:複数の出力を比較することで、多様な出力が生成される可能性があります。

 GRPOの具体的な仕組み:複数出力の生成:

1つの入力に対して、複数の異なる出力を生成します。
報酬のグループ化:

生成された出力に対して報酬を計算し、それらをグループ化します。
相対的な評価:

グループ内で、最も報酬の高い出力（または上位の出力）を選択し、その出力に基づいてモデルを更新します。
学習の継続:

このプロセスを繰り返すことで、モデルはより良い出力を生成するように学習します。

 GRPOが注目される理由:LLMの学習効率向上:

価値モデルを省略することで、計算コストを大幅に削減し、大規模なLLMの学習を効率的に行うことができます。
少ない計算資源での学習:

少ないGPUメモリで学習できるため、個人や小規模な研究室でも大規模言語モデルの学習が可能になります。
多様な出力の生成:

複数の出力を比較することで、より多様な回答を生成できるようになり、LLMの表現力が向上します。