WangZeJun

Results 62 comments of WangZeJun

> > 能跑起来的话留言告诉我一下 > > 加上 model.enable_input_require_grads() 之后,不开启int8 training可以跑了,thx! 另外,都是7B的模型,超参设置也一样,bloom的lora微调比llama的lora微调速度慢很多,这个正常吗?bloom的train_samples_per_second是0.598,而llama的能达到将近3 两个训练的参数量差别大吗?

抱歉,项目不是 header-only 的,需要进行编译