greatewei
greatewei
> 哦,我终于知道你是什么意思了,你的意思是随着文本的变长,显存一直变大,但是在下一次输入还没开始的时候就一直保持的这个变大之后的显存是吧。 因为下一次输入的时候还是会占这么多显存,所以整体上来说是没啥问题的。不过可能业务需求上会有这种需求。 是的,人一多就OOM了,看了一下你的写法是触发OOM后才进行释放,我是evaluate函数的最后增加了torch.cuda.empty_cache()
> lora模型训练的数据大小有要求吗,我现在想要训练一个小领域的数据,但是数据量可能比较小,base_model使用BELLE,便于理解中文,这样训练出来的模型效果如何,是否能够正确回答lora小领域的问题。
> 刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main 十分感谢, 有没有 checkpoint-8000 ^_^
> > 刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main > > 十分感谢, 有没有 checkpoint-8000 ^_^ 还有一点,我观察到merge.json的数据是 69w , epochs = 3, (690000 - test_size) / 128 * 3 ,为什么max_steps是 8133 max_steps": 8133, num_train_epochs": 3
> 因为batch不一样,我们这个是在单卡3090上训练的,batch开不了很大 你们使用的batch是 256 把,这样计算下来差不多是 8133 max_steps, 上面提供的是checkpoint3000,有没有checkpoint8000可用
> checkpoint3000是第一轮完成的结果,后面两轮的没保存了 模型效果差距会不会太大