Open1
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training (Feb 2024)

Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training (Feb 2024)
現在標準的に用いられているLLMのデコード手法は、greedyやbeam searchといったルールベースのナイーブな手法を用いている。
提案手法は強化学習の知見を用いて生成途中の状態の評価関数(value function)と報酬関数(ORM)をデータから学習する手法。
本手法は基本的にデコードを最適化する手法だが、学習データにこのデコード手法を適用して出力結果を改善したデータセットを用いて追加学習を行うことで、ブートストラップ的に元の生成モデルの性能も向上させることができることを示した。
所感
直感的には数手先の状況から判断して現在の状態の評価を決定する「先読みデコーディング」手法の一種とみなすことができる。
この手法はAlpha-goで用いられたほか、OpenAIのo1-likeなモデルを目指して開発されたMacro-o1でも用いられている。