InternLM-XComposer
InternLM-XComposer copied to clipboard
layer-wise learning rate
请教一个问题,layer-wise learning rate 比如同一层的参数有Q、K、V、MLP等参数,同一层的参数学习率相同,还是按照从上到下的顺序,同一层的lr也会衰减,同一层的学习率也不同?
也在尝试复现XCompose的训练过程,感兴趣的可以一起交流