safehumeng
safehumeng
> > ```python > > no_grad > > ``` > > 我觉得predict部分需要 no_grad 包一下,不然会增加显存。 好的,谢啦,我把方法加了@torch.no_grad()注解,不会增加了
> 网络层分配的问题 但由于是算loss的时候出错,能麻烦问下怎么好定位是哪一层出的问题呢
加上lora再设定训练全部参数也会报错,梯度回传的时候怎么设定卡呢
不训练transformer.word_embeddings的所有层就不会报错
> 我也遇到这个问题,用lora就没问题,去掉lora的部分就会出现这个报错,有什么解决办法么 先冻结transformer.word_embeddings,现在能训90%参数,之后怎么训我还没看,无非就是反向传播的时候怎么获取当前设备并移动