wusiping comments

Results 2 comments of


                                            wusiping

训练脚本设置 +data.apply_chat_template_kwargs.enable_thinking=False

后续会支持reranker 的 rl 吗？比如qwen3 模型，输入的是一个正例和多个负例，grpo 的 reward是对正例和负例的 listwise 的 ndcg或其他自定义的reward