Bingogogo8

Results 1 comments of Bingogogo8

/ > 我已经跑起来了,确实要修改下才能跑 muon优化器 多占一倍显存,所以batch size需要变小 batch size变小的时候,loss是会更低的;作为对比实验我跑了一组使用adamW的batch size变小的实验 实验结果显示:muon优化器和adamW优化器loss曲线几乎重合,最后评估指标也无明显差异 > > 怀疑这里muon的实现有问题,或者muon无用 你好,可以请问一下还需要修改哪里呢,现在还是会报KeyError: 'use_muon', 还有这个代码适配zero2吗