GRPO
このトピックを指定するには
grpo
と入力
Articles
8
Scraps
2
scraps
Trending
Alltime
Latest
【LLM Tips】RLVR(Reinforcement Learning with Verifiable Rewards、検証可能な報酬を用いた強化学習)について📝
Open
まさぴょん🐱
2ヶ月前にコメント追加
#
GRPO
#
強化学習
#
llmtips
#
reinforcementlearn
#
rlvr
1
【LLM】DPO、強化学習GRPOについて📝
Open
まさぴょん🐱
2ヶ月前にコメント追加
#
LLM
#
機械学習
#
dpo
#
GRPO
#
強化学習
3