強化学習における報酬ハッキング (新しい研究論文の紹介)

2024/12/03に公開

この論文では、多くのインテリジェントなハッキング手法が紹介されています。そのうちの一つの例を挙げると、

LLM の RLHF をハッキングする =>
人間からのフィードバックによる強化学習 (RLHF) は、LLMのアライメント トレーニングにおける事実上のアプローチとなっています。報酬モデルは人間のフィードバック データに基づいてトレーニングされ、その後、LLMが 強化学習を介して微調整され、この代理報酬が人間の好みに合わせて最適化されます。

トレーニングプロセスのハッキング =>
RLHFは、モデルと人間の好みの整合性を改善することを目的としていますが、人間のフィードバックは、私たちが気にするすべての側面 (事実性など) を捉えているわけではないため、ハッキングされて望ましくない属性に過剰適合する可能性があります。

  1. RLHFは人間の承認を高めますが、必ずしも正確性を高めるわけではありません。
  2. RLHFは人間の評価能力を弱めます。RLHFトレーニング後、人間の評価のエラー率は高くなります。
  3. RLHFは、誤った出力を人間にとってより説得力のあるものにします。RLHFトレーニング後、評価の誤検出率が大幅に増加します。

詳細について、元の論文を参照してください - https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#hacking-rlhf-of-llms

Discussion