有更多关于grpo训练的细节吗?比如数据合成和奖励函数的设计。
有更多关于grpo训练的细节吗?比如数据合成和奖励函数的设计。