RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

ローカルGPUだけでコード生成LLMを強化学習する方法を、環境構築からベンチマーク評価まで全工程コード付きで解説。Qwen2.5-Coder-1.5BをGRPOで訓練し、HumanEvalスコアを89.6%→93.3%に改善した実験の完全記録。

Author
yuto[SEEDA]
Topics
公開
文章量
35,254
価格
1,500