又农
Results
2
comments of
又农
我做了dpo、orpo,效果还不如sft,问过LLaMA-Factory的核心开发者,回答是“强化学习适合用于日常对话任务”
首先确保这个tool能单独执行 其次,配置可参考我的帖子https://zhuanlan.zhihu.com/p/691243377