Laplace的烦恼

Results 2 comments of Laplace的烦恼

> 我已经跑起来了,确实要修改下才能跑 muon优化器 多占一倍显存,所以batch size需要变小 batch size变小的时候,loss是会更低的;作为对比实验我跑了一组使用adamW的batch size变小的实验 实验结果显示:muon优化器和adamW优化器loss曲线几乎重合,最后评估指标也无明显差异 > > 怀疑这里muon的实现有问题,或者muon无用 我也是发现了这个问题:muon优化器和adamW优化器loss曲线几乎重合,而且改了一下deepspeed zero3下的muon逻辑,发现即时有部分参数会传给muon,但是最后muon好像并没有对这些参数进行优化(或许adjust_lr_for_muon很小)

> / > > > 我已经跑起来了,确实要修改下才能跑 muon优化器 多占一倍显存,所以batch size需要变小 batch size变小的时候,loss是会更低的;作为对比实验我跑了一组使用adamW的batch size变小的实验 实验结果显示:muon优化器和adamW优化器loss曲线几乎重合,最后评估指标也无明显差异 > > 怀疑这里muon的实现有问题,或者muon无用 > >> 你好,可以请问一下还需要修改哪里呢,现在还是会报KeyError: 'use_muon', 还有这个代码适配zero2吗 > > 好像不支持zero3 、2,这里可以将将use_muon作为自定义属性直接附加到参数张量上,但是我分类了一下参数,发现 146 个参数由 Muon 优化器内部的 AdamW...