beyondguo comments

Results 59 comments of


                                            beyondguo

多卡训练感觉不是并发的?

正常的，因为目前代码里设置的是 `device_map="auto"`，在多卡状态下会自动触发 model parallel 模型并行，就是把模型的多个层分配到不同的 GPU 上，从而可以节省显存、加大batch。我自己测的时候，发现它会比 data parallel 更快。如果想改成 data parallel，则将 device_map="auto" 改为：`device_map={'':torch.cuda.current_device()}`

多卡训练感觉不是并发的?

暂时没碰到。有什么报错吗

请教一个问题，chatglm2在用lora微调时，不添加attention mask也可以么？

ChatGLM, baichuan等模型的源码 (modeling_chatglm.py这种) 里面其实自己会构造应对 causal LM 的 attention mask，不用手动去构造了。比如 https://huggingface.co/THUDM/chatglm2-6b/blob/main/modeling_chatglm.py#L674 其他 GPT 类的模型都不用显示输入 attention mask，模型内部都会用各种办法来生成mask。

ChatGLM2按照readme教程微调了，但是没有效果！！！

你微调的数据是咋样的？数据量多少？

ChatGLM2按照readme教程微调了，但是没有效果！！！

什么叫没效果？没见到一个人贴一下例子，用的什么数据训练、测试的什么例子、原始模型和微调之后模型的对比，什么都没有。我这里训练的好好的。

ChatGLM2按照readme教程微调了，但是没有效果！！！

@valkryhx 你测试过训练集中的qa的有明显效果吗？如果训练集中特有的模式都没有学到，那可能确实哪里有问题。我使用的训练参数就是repo里面提供的默认值，甚至只学2 epochs。一般你的微调语料跟日常对话差别越大，你就越能看到效果，ChatGLM本身的对话效果就很强，所以你继续用少量的qa去微调，不一定看得出来。

chaglm-6b lora微调执行到指定的eval_step后提示“iteration over a 0-d tensor”

修改`ModifiedTrainer`部分: ```python class ModifiedTrainer(Trainer): def compute_loss(self, model, inputs, return_outputs=False): outputs = model( input_ids=inputs["input_ids"], labels=inputs["labels"], ) loss = outputs.loss return (loss, outputs) if return_outputs else loss def save_model(self, output_dir=None, _internal_call=False): self.model.save_pretrained(output_dir)...

beyondguo

多卡训练感觉不是并发的?

多卡训练感觉不是并发的?

请教一个问题，chatglm2在用lora微调时，不添加attention mask也可以么？

ChatGLM2按照readme教程微调了，但是没有效果！！！

ChatGLM2按照readme教程微调了，但是没有效果！！！

ChatGLM2按照readme教程微调了，但是没有效果！！！

chaglm-6b lora微调执行到指定的eval_step后提示“iteration over a 0-d tensor”

微调的时候如何让模型记住一些特有的知识呢

多卡运行后报错

多卡运行后报错