juechenzp

Results 2 comments of juechenzp

请问你解决了吗,我也遇到了这个问题了

非常感谢作者的指导,我已经可以重新剪枝训练了。但是我对稀疏公式和代码的对应关系感到迷惑,反向传播公式是: 𝐿′=∑𝑙′+𝜆∑𝑔′(𝛾)=∑𝑙′+𝜆∑|𝛾|′=∑𝑙′+𝜆∑𝛾∗𝑠𝑖𝑔𝑛(𝛾),代码里的梯度计算是: m.weight.grad.data.add_(srtmp * torch.sign(m.weight.data))。 对比公式,代码里少了一项Y权值,这样做的原因是什么啊,这里我感到困惑,希望作者帮忙指点一下,感谢。