逆思考により大規模言語モデルが強力な推論器に (新しい研究論文の紹介)
背景:
逆思考方法は人間の推論力において重要な役割を果たします。人間は問題から解決策へ推論するだけでなく、逆方向にも推論できます。つまり、解決策から始めて問題に向かって推論することができます。これにより、前向きの思考と後ろ向きの思考の一貫性をチェックできるため、全体的な推論パフォーマンスが向上することがよくあります。
提案:
この論文では、逆方向推論を可能にして LLM を改善するフレームワークである REVTHINK を紹介します。これは、教師モデルから適切に構造化された順方向データと逆方向データを生成する効果的なデータ拡張方法を提案します。また、この拡張データを最大限に活用する補助タスクを備えた効果的な学習目標も提案しています。
詳細:
先ずREVTHINK はデータ拡張により、教師モデルからの数回のプロンプトを通じて、前向き推論、後ろ向き質問、後ろ向き推論を生成します。前向き推論と後ろ向き推論はどちらも Chain-of-Thought です。次に、次のデータ ポイントのみを保持します: (a) 前向き推論が正確である場合 (グラウンド トゥルースに対して検証済み)、および (b) 後ろ向き推論が元の質問と一致する場合 (教師モデルにプロンプトを出すことで検証済み)。
データセットを拡張した後、REVTHINK は、より小規模な学生モデルをトレーニングするための 3 つの主要な目標を提案します。具体的には、学生は次のことを学びます:
(1) 質問から正しい前向き推論を生成する - 知識抽出の標準的な方法、
(2) 元の質問から後ろ向きの質問を生成する - 問題を逆転させて適切な質問を決定する方法を考える、
(3) 後ろ向きの質問から後ろ向きの推論を生成する - 後ろ向きの質問を解くことで、学生の後ろ向きの推論能力が強化されます。
テスト時に、学生モデルに質問が表示され、標準的なゼロショット推論と同様に、前向き推論のみが生成されます。本質的に、REVTHINK パイプラインは、トレーニング中に後ろ向き推論する機能を内部化しながら、テスト時の計算をゼロショットアプローチと同じくらい効率的に維持します。
次の図は記号的知識蒸留 (SKD) と本論文で提案された方法との比較です。
(1) 教師モデルは与えられた質問に対して複数の推論チェーンを生成する、
(2) SKD は正しい推論チェーンを監督下で微調整する、
(3) 提案された方法は双方向推論を組み込んでおり、マルチタスク目標を使用して Q-to-A と A-to-Q の両方から学習する。
従来の教師ありファインチューニングは、質問から回答までの一方向の推論に重点を置いています。対照的に、REVTHINK は、データ拡張方法と提案された目標を通じて両方向の推論を学習することで、双方向の思考を導入します。
Discussion