yinzhang809 comments

Results 9 comments of


                                            yinzhang809

RuntimeError: MGLMTextSummarizationPipeline: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500

是不是同时还有别的类似程序再跑？看样子是端口被别的程序占用了，torchrun 拉起训练的时候使用--master_port xxxx 改一下端口试试

gpt3 2.3b 训练 loss nan

不知道楼主有没有改过sequence_length, 我在自己数据集上使用Dureader的脚本发现当样本长度大于sequence_length时会出现loss为nan的情况（训练到一半突然变成nan） modelscope==1.3.2

RuntimeError: DistributedGPT3Pipeline: Error building extension 'scaled_upper_triang_masked_softmax_cuda'

我在gcc版本是5.5.0的时候也遇到这个问题，升级到7.5.0就不报错了

RuntimeError: DistributedGPT3Pipeline: Error building extension 'scaled_upper_triang_masked_softmax_cuda'

> > 我在gcc版本是5.5.0的时候也遇到这个问题，升级到7.5.0就不报错了 > > 请问下，我gcc版本是9.5.0的时候也是报这个错误，降版本就没事了吗不清楚... 你报错里有这个error吗，我是搜这个error 然后根据 https://github.com/NVIDIA/apex/issues/1268 这里的评论解决的。 error: invalid static_cast from type ‘const torch::OrderedDict’ to type ‘torch::OrderedDict&’

RuntimeError: DistributedGPT3Pipeline: Error building extension 'scaled_upper_triang_masked_softmax_cuda'

> cc1plus: fatal error: /usr/local/cuda-11.7/include/stdc-predef.h: 权限不够问题应该出在这句吧，改下权限试试 @alexa1109

[BUG] 使用ChatGLMForConditionalGeneration加载模型的hidden_states返回值是空

https://huggingface.co/THUDM/chatglm-6b/blob/658202d88ac4bb782b99e99ac3adff58b4d0b813/modeling_chatglm.py#L1228 这里改为hidden_states=hidden_states 或 hidden_states=transformer_outputs[0] 参考： https://huggingface.co/THUDM/chatglm-6b/blob/658202d88ac4bb782b99e99ac3adff58b4d0b813/modeling_chatglm.py#L1202

[bug or question]数据的输入和输出处理部分的疑问，麻烦作者帮忙解答一下

总的来说模型的任务是预测下一个token。首先你贴的预处理代码中记录了prompt的长度。 https://github.com/mymusise/ChatGLM-Tuning/blob/997393046a49510e6cda36962f9a399297959311/finetune.py#L29 然后在这个函数中，将prompt部分的label设为了-100（CrossEntropyLoss 的ignore_index）,也就是这部分的loss不计算，只保留target_id 部分的loss。

[bug or question]数据的输入和输出处理部分的疑问，麻烦作者帮忙解答一下

这个问题应该是eos没设置对，不知道你拉的代码是什么时候的，参考 #55 与 #60 这俩issue

能不能让程序多一个 epoch的限制

> > 看一下trainer的文档，直接用num_of_epochs就行，去掉max steps > > 您好，能指路一下文档在哪看嘛？ https://huggingface.co/docs/transformers/v4.28.1/en/main_classes/trainer#transformers.TrainingArguments @Sauloo-huen