ChatGLM-Tuning

ChatGLM-Tuning copied to clipboard

Reame
Issues

微调时token长度

Open shuangshuangguo opened this issue 2 years ago • 1 comments

您好，请教2个问题：

在数据集预处理时，为何要设置--max_seq_length 200，这样是不是导致训练数据集都是短文本，从而导致调优后模型倾向于生成简短的answer呢？
chatglm原始模型默认token长度为2048，该设置下大概需要多少显存呢？期待您的回答，谢谢！

Mar 29 '23 08:03 shuangshuangguo

2048长度估计需要单卡60g显存

Mar 30 '23 13:03 suc16