【LLM開発/LLM Tips】SPARQ: 品質多様性アルゴリズムによる推論のための総合的な問題生成について📝

SPARQ: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms
SPARQ: 品質多様性アルゴリズムによる推論のための総合的な問題生成
大規模言語モデル(LLM)駆動型の合成データ生成は、モデル推論能力を向上させる強力な手法として登場しました。
しかし、ほとんどの手法は、最先端の大規模モデルを小さな学習データに抽出するか、問題文の品質を保証するために自然な正解問題文を使用しています。
そのため、これらの手法は、より複雑で多様な問題領域への拡張性が制限されています。この問題に対処するため、本研究ではSPARQ(Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms)を提案します。
これは、問題の難易度を表す指標である問題の解率を測定することで、単一のモデルのみを用いて高品質で多様な合成数学問題と解のペアを生成する、新たな手法です。
7.5Kサンプルのシードデータセットから、2,000万以上の新しい問題と解のペアを生成します。生成されたデータを難易度でフィルタリングし、得られたデータに対して同じモデルを微調整することで、相対的なモデル性能が最大24%向上することを示します。
さらに、合成データの量、品質、多様性がモデルの汎化に与える影響を調査するアブレーションを実施します。問題の難易度で測られる品質の高さは、分布内性能の向上を促進することが分かりました。
さらに、多様な合成データを生成することは分布内性能にそれほど大きなメリットをもたらしませんが、より多様なデータにフィルタリングすることで、より堅牢なOOD一般化が促進されます。
また、合成的に生成された問題にはモデルとデータのスケーリング則が存在することを確認し、これが下流のモデル一般化にプラスの影響を与えていることも確認しました。