RongPiKing

Results 5 comments of RongPiKing

Thank you for your answer!I did not modify any code, so do I need to adjust the parameters in the code myself to achieve the effect in the paper?

好的,谢谢您。那请问batchsize设置成1大概要train多少个step呢

我看您论文中是batchsize为80,1.8k个step,那我train 大概80×1.8k个step可能会有成效吗

明白,谢谢您的回答

> > 这个问题现在有解决方案吗 > > 除非把VAE,单独拿出来。Zero3 的offload策略,导致cache的共享出错了 请问现在解决了嘛