LLaMA-Factory 使用Qwen1.5-14B Base模型二次预训练后，再做微调后，发现生成重复内容，请问一下问题可能出现在哪？

使用Qwen1.5-14B Base模型二次预训练后，再做微调后，发现生成重复内容，请问一下问题可能出现在哪？

Open lijihua2017 opened this issue 10 months ago • 4 comments

WX20240408-095035

使用Qwen1.5-14B Base模型二次预训练后，再做微调后，发现生成重复内容，请问一下问题可能出现在哪？

No response

No response

No response

Apr 08 '24 01:04 lijihua2017

可能过拟合，也有可能没学到eos token

Apr 08 '24 02:04 Tendo33

@Tendo33 并不是问所有的问题都这样，一般问到需要模型内部知识的情况下会这样，比如让他“列举、推荐”之类的就会生成重复的答案，直接能推理出来答案的情况不会重复。

Apr 08 '24 07:04 lijihua2017

佬你是怎么介入到fastgpt的呢？

Apr 09 '24 08:04 Egber1t

@Egber1t 用框架自带的openai兼容的推理脚本

Apr 10 '24 01:04 lijihua2017

这是过拟合的现象

Apr 10 '24 16:04 hiyouga

@hiyouga 我用的自带的lima那个数据集只epoch 设为1就也是一样，按理不应该过拟合了的，不知道为什么每次都会这样

Apr 11 '24 10:04 lijihua2017