
RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録
ローカルGPUだけでコード生成LLMを強化学習する方法を、環境構築からベンチマーク評価まで全工程コード付きで解説。Qwen2.5-Coder-1.5BをGRPOで訓練し、HumanEvalスコアを89.6%→93.3%に改善した実験の完全記録。
Chapters
はじめに — SFTの壁と強化学習の可能性
SFT vs RL — なぜ強化学習がコード生成に効くのか
環境構築 — Unsloth + TRL を RTX 4080 で動かす
訓練データの準備 — HumanEval + MBPP を GRPO 向けに変換
報酬関数を作る — サンドボックス実行 + テスト判定
GRPOの仕組み — PPO/DPOとの違いを図解で理解
訓練の実装 — GRPOTrainer の全コード解説
訓練実行とモニタリング — 報酬カーブとlossの読み方
Before/After ベンチマーク — 数字で見る改善効果
失敗録と次のステップ — 7Bの罠、OOMとの闘い、そして先へ
Author
Topics
- 公開
- 文章量
- 約35,254字
- 価格
- 1,500円