ChatGLM-Tuning
ChatGLM-Tuning copied to clipboard
微调时token长度
您好,请教2个问题:
- 在数据集预处理时,为何要设置--max_seq_length 200,这样是不是导致训练数据集都是短文本,从而导致调优后模型倾向于生成简短的answer呢?
- chatglm原始模型默认token长度为2048,该设置下大概需要多少显存呢? 期待您的回答,谢谢!
2048长度估计需要单卡60g显存