wusiping

Results 2 comments of wusiping

训练脚本设置 +data.apply_chat_template_kwargs.enable_thinking=False

后续会支持reranker 的 rl 吗? 比如qwen3 模型,输入的是一个正例和多个负例,grpo 的 reward是对 正例和负例的 listwise 的 ndcg或其他自定义的reward