swift
swift copied to clipboard
lisa可训练参数计算异常
Describe the bug
yi-6B-chat可训练参数在lisa_activated_layers设置1/2/4都显示
[INFO:swift] LlamaForCausalLM: 6061.0355M Params (524.2921M Trainable [8.6502%]), 33.5565M Buffers.`,这个计算是不是有问题?
是的,但是LISA的不好计算可训练参数,因为整个模型的layers都会被轮流backward,这个我后面想想应该怎么给出参数
或者给一个区间?而且原论文说主要也是首尾的层激活的多,大概给个值加上error bar也就差不多 主要是和LoRA之类方法对比的时候 如果她动的参数多很多,感觉这种对比不是太公平