ChatGLM-6B icon indicating copy to clipboard operation
ChatGLM-6B copied to clipboard

[BUG/Help] 微调后输出结果差

Open mao-ym opened this issue 2 years ago • 4 comments
trafficstars

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

我使用1w条左右的数据全量微调6个epoch,最后train loss为3.98,微调出的模型不仅无法对微调时使用的prompt正确输出,通用的对话如“hello”等的回复也受到影响输出乱码。请问这种情况是什么原因?

Expected Behavior

No response

Steps To Reproduce

1

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

mao-ym avatar Jul 04 '23 11:07 mao-ym

可能是因为微调数据质量较低或与SFT数据差异较大,破坏了模型原有的知识,导致模型的语义理解能力、生成能力、对齐效果下降。建议可以尝试少量参数微调,如p-tuning。

heyLinsir avatar Jul 06 '23 03:07 heyLinsir

这个loss太高了吧 loss一开始是多少?

SCAUapc avatar Jul 06 '23 09:07 SCAUapc

我跟你情况差不多, epoch训练越多, 遗忘越多, 反而是前面step的效果略好些

neal668 avatar Aug 02 '23 07:08 neal668

这个loss太高了吧 loss一开始是多少?

这里微调正常效果比较好的loss大概是多少呀?

Roronoayx avatar Jun 15 '24 03:06 Roronoayx