ChatGLM-6B
ChatGLM-6B copied to clipboard
[BUG/Help] 微调后输出结果差
trafficstars
Is there an existing issue for this?
- [X] I have searched the existing issues
Current Behavior
我使用1w条左右的数据全量微调6个epoch,最后train loss为3.98,微调出的模型不仅无法对微调时使用的prompt正确输出,通用的对话如“hello”等的回复也受到影响输出乱码。请问这种情况是什么原因?
Expected Behavior
No response
Steps To Reproduce
1
Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
Anything else?
No response
可能是因为微调数据质量较低或与SFT数据差异较大,破坏了模型原有的知识,导致模型的语义理解能力、生成能力、对齐效果下降。建议可以尝试少量参数微调,如p-tuning。
这个loss太高了吧 loss一开始是多少?
我跟你情况差不多, epoch训练越多, 遗忘越多, 反而是前面step的效果略好些
这个loss太高了吧 loss一开始是多少?
这里微调正常效果比较好的loss大概是多少呀?