Open1

ORM vs PRM: 十分な学習データがあればPRMの方が有望

bilzardbilzard

paper: Let's verify step by step, 2023.5

OpenAIの研究チームによる「信頼できるverifierの学習」に関する論文。
ここでの主要な結論は、最終回答にのみ報酬を与えるORMよりも、推論の各ステップに報酬を与えるPRMの方が学習効率が良いというもの。

十分な性能のgenerator(GPT-4)を使って解法を生成すれば、解法の候補数に対して正解数(verifierが選んだTop1の候補の正答率)はスケールするが、その効果はORMよりもPRMの方が飛躍的に高いことをMATHデータセットで示した。

STaRやDeepSeek-R1などが「正答に導く解法のCoTを擬似ラベルとして用いる」アプローチを用いているのとは対照的に、ステップごとの推論の正誤ラベルは人間が与えている。
著者らのスタンスとしては「最終解答は正しいが推論過程は誤っている」ケースを問題視している。

所感

Noam Brownらの推論時スケーリングの文脈では、「解法の候補の数」は探索ステップ数、すなわち探索コストに置き換えることができる。

この研究では教師信号として人間のラベルに依存しているが、一応Brownらの研究と組み合わせるとスケーリングしそうだ、という見通しはこの時点で立ちそうに思える。

https://arxiv.org/abs/2305.20050