safehumeng comments

Results 16 comments of


                                            safehumeng

> > ```python > > no_grad > > ``` > > 我觉得predict部分需要 no_grad 包一下，不然会增加显存。好的，谢啦，我把方法加了@torch.no_grad()注解，不会增加了

这个可以过一个softmax解决么

> 网络层分配的问题但由于是算loss的时候出错，能麻烦问下怎么好定位是哪一层出的问题呢

加上lora再设定训练全部参数也会报错，梯度回传的时候怎么设定卡呢

不训练transformer.word_embeddings的所有层就不会报错

> 我也遇到这个问题，用lora就没问题，去掉lora的部分就会出现这个报错，有什么解决办法么先冻结transformer.word_embeddings，现在能训90%参数，之后怎么训我还没看，无非就是反向传播的时候怎么获取当前设备并移动