又农

Results 2 comments of 又农

我做了dpo、orpo,效果还不如sft,问过LLaMA-Factory的核心开发者,回答是“强化学习适合用于日常对话任务”

首先确保这个tool能单独执行 其次,配置可参考我的帖子https://zhuanlan.zhihu.com/p/691243377