qlora
qlora copied to clipboard
反向传播时,梯度是如何计算的
我是一个初学者,我想知道论文中,为什么说求E和L的偏导时,需要X关于W的偏导,能简单地给我一个推导的公式吗?
非常感谢。