wusiping
Results
2
comments of
wusiping
训练脚本设置 +data.apply_chat_template_kwargs.enable_thinking=False
后续会支持reranker 的 rl 吗? 比如qwen3 模型,输入的是一个正例和多个负例,grpo 的 reward是对 正例和负例的 listwise 的 ndcg或其他自定义的reward