ChatGLM-6B
ChatGLM-6B copied to clipboard
想保留原有的对话能力并增加现有的问题处理对话哪种更适合呢?lora还是ptuning??? 我还有个疑问,#413 说到ptuning微调之后就只支持当前任务了,这种同样是对话的任务微调之后之前的对话能力是否也会变差?如果想保留原有的对话能力并增加现有的问题处理对话是不是使用lora更适合?
Is there an existing issue for this?
- [X] I have searched the existing issues
Current Behavior
想保留原有的对话能力并增加现有的问题处理对话哪种更适合呢?lora还是ptuning???
我还有个疑问,https://github.com/THUDM/ChatGLM-6B/issues/413 说到ptuning微调之后就只支持当前任务了,这种同样是对话的任务微调之后之前的对话能力是否也会变差?如果想保留原有的对话能力并增加现有的问题处理对话是不是使用lora更适合?
Expected Behavior
想保留原有的对话能力并增加现有的问题处理对话哪种更适合呢?lora还是ptuning???
我还有个疑问,https://github.com/THUDM/ChatGLM-6B/issues/413 说到ptuning微调之后就只支持当前任务了,这种同样是对话的任务微调之后之前的对话能力是否也会变差?如果想保留原有的对话能力并增加现有的问题处理对话是不是使用lora更适合?
Steps To Reproduce
想保留原有的对话能力并增加现有的问题处理对话哪种更适合呢?lora还是ptuning???
我还有个疑问,https://github.com/THUDM/ChatGLM-6B/issues/413 说到ptuning微调之后就只支持当前任务了,这种同样是对话的任务微调之后之前的对话能力是否也会变差?如果想保留原有的对话能力并增加现有的问题处理对话是不是使用lora更适合?
Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
Anything else?
想保留原有的对话能力并增加现有的问题处理对话哪种更适合呢?lora还是ptuning???
我还有个疑问,https://github.com/THUDM/ChatGLM-6B/issues/413 说到ptuning微调之后就只支持当前任务了,这种同样是对话的任务微调之后之前的对话能力是否也会变差?如果想保留原有的对话能力并增加现有的问题处理对话是不是使用lora更适合?
我感觉无论是lora还是ptuning都会存在历史遗忘的问题,因为这二者本身还是微调的变形罢了
实测,ptuning遗忘的很多,建议用lora,并且训练次数不能太多。
实测,ptuning遗忘的很多,建议用lora,并且训练次数不能太多。
lora会遗忘吗?
就算你从头到尾所有参数全部微调,也会有遗忘,lora相比ptuning会好点,但是ptuning做特定任务效果会好点。
就算你从头到尾所有参数全部微调,也会有遗忘,lora相比ptuning会好点,但是ptuning做特定任务效果会好点。
多谢!
实测,ptuning遗忘的很多,建议用lora,并且训练次数不能太多
实测 也会忘,好像不能步数太多
实测,ptuning遗忘的很多,建议用lora,并且训练次数不能太多
实测 也会忘,好像不能步数太多
但是步数少,感觉新东西学得不好,不知道是不是lora参数选的不对
Lora 训练新知识,我试了一下几千步就可以了,要是几万步,反而推理结果更差
你们batchsize都多大,accumulate是几
用ptuning,8000条数据,训练epoch到了5点几,感觉调的有点呆了
就算你从头到尾所有参数全部微调,也会有遗忘,lora相比ptuning会好点,但是ptuning做特定任务效果会好点。
你ptuning时用了多少条数据效果或不错?
那到底如何控制 这个遗忘呢, 我是万全按照他[P-Tuning v2] 的微调 参数 都没动