yinzhang809
yinzhang809
是不是同时还有别的类似程序再跑?看样子是端口被别的程序占用了,torchrun 拉起训练的时候 使用--master_port xxxx 改一下端口试试
不知道楼主有没有改过sequence_length, 我在自己数据集上使用Dureader的脚本发现当样本长度大于sequence_length时会出现loss为nan的情况(训练到一半突然变成nan) modelscope==1.3.2
我在gcc版本是5.5.0的时候也遇到这个问题,升级到7.5.0就不报错了
> > 我在gcc版本是5.5.0的时候也遇到这个问题,升级到7.5.0就不报错了 > > 请问下,我gcc版本是9.5.0的时候也是报这个错误,降版本就没事了吗 不清楚... 你报错里有这个error吗,我是搜这个error 然后根据 https://github.com/NVIDIA/apex/issues/1268 这里的评论解决的。 error: invalid static_cast from type ‘const torch::OrderedDict’ to type ‘torch::OrderedDict&’
> cc1plus: fatal error: /usr/local/cuda-11.7/include/stdc-predef.h: 权限不够 问题应该出在这句吧,改下权限试试 @alexa1109
https://huggingface.co/THUDM/chatglm-6b/blob/658202d88ac4bb782b99e99ac3adff58b4d0b813/modeling_chatglm.py#L1228 这里改为hidden_states=hidden_states 或 hidden_states=transformer_outputs[0] 参考: https://huggingface.co/THUDM/chatglm-6b/blob/658202d88ac4bb782b99e99ac3adff58b4d0b813/modeling_chatglm.py#L1202
总的来说模型的任务是预测下一个token。 首先你贴的预处理代码中记录了prompt的长度。 https://github.com/mymusise/ChatGLM-Tuning/blob/997393046a49510e6cda36962f9a399297959311/finetune.py#L29 然后在这个函数中,将prompt部分的label设为了-100(CrossEntropyLoss 的ignore_index),也就是这部分的loss不计算,只保留target_id 部分的loss。
这个问题应该是eos没设置对,不知道你拉的代码是什么时候的, 参考 #55 与 #60 这俩issue
> > 看一下trainer的文档,直接用num_of_epochs就行,去掉max steps > > 您好,能指路一下文档在哪看嘛? https://huggingface.co/docs/transformers/v4.28.1/en/main_classes/trainer#transformers.TrainingArguments @Sauloo-huen