swift icon indicating copy to clipboard operation
swift copied to clipboard

lisa可训练参数计算异常

Open WSC741606 opened this issue 2 months ago • 2 comments

Describe the bug yi-6B-chat可训练参数在lisa_activated_layers设置1/2/4都显示[INFO:swift] LlamaForCausalLM: 6061.0355M Params (524.2921M Trainable [8.6502%]), 33.5565M Buffers.`,这个计算是不是有问题?

WSC741606 avatar Apr 29 '24 02:04 WSC741606

是的,但是LISA的不好计算可训练参数,因为整个模型的layers都会被轮流backward,这个我后面想想应该怎么给出参数

tastelikefeet avatar Apr 30 '24 08:04 tastelikefeet

或者给一个区间?而且原论文说主要也是首尾的层激活的多,大概给个值加上error bar也就差不多 主要是和LoRA之类方法对比的时候 如果她动的参数多很多,感觉这种对比不是太公平

WSC741606 avatar Apr 30 '24 10:04 WSC741606