ChatGLM-6B [BUG/Help] 微调后输出结果差

[BUG/Help] 微调后输出结果差

Open mao-ym opened this issue 2 years ago • 4 comments

trafficstars

我使用1w条左右的数据全量微调6个epoch，最后train loss为3.98，微调出的模型不仅无法对微调时使用的prompt正确输出，通用的对话如“hello”等的回复也受到影响输出乱码。请问这种情况是什么原因？

No response

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

No response

Jul 04 '23 11:07 mao-ym

可能是因为微调数据质量较低或与SFT数据差异较大，破坏了模型原有的知识，导致模型的语义理解能力、生成能力、对齐效果下降。建议可以尝试少量参数微调，如p-tuning。

Jul 06 '23 03:07 heyLinsir

这个loss太高了吧 loss一开始是多少？

Jul 06 '23 09:07 SCAUapc

我跟你情况差不多, epoch训练越多, 遗忘越多, 反而是前面step的效果略好些

Aug 02 '23 07:08 neal668

这个loss太高了吧 loss一开始是多少？

这里微调正常效果比较好的loss大概是多少呀？

Jun 15 '24 03:06 Roronoayx