Laplace的烦恼 comments

Results 2 comments of


                                            Laplace的烦恼

[question] Dose Muon Optimizer support deepspeed ?

> 我已经跑起来了，确实要修改下才能跑 muon优化器多占一倍显存，所以batch size需要变小 batch size变小的时候，loss是会更低的；作为对比实验我跑了一组使用adamW的batch size变小的实验实验结果显示：muon优化器和adamW优化器loss曲线几乎重合，最后评估指标也无明显差异 > > 怀疑这里muon的实现有问题，或者muon无用我也是发现了这个问题：muon优化器和adamW优化器loss曲线几乎重合，而且改了一下deepspeed zero3下的muon逻辑，发现即时有部分参数会传给muon，但是最后muon好像并没有对这些参数进行优化(或许adjust_lr_for_muon很小)

[question] Dose Muon Optimizer support deepspeed ?

> / > > > 我已经跑起来了，确实要修改下才能跑 muon优化器多占一倍显存，所以batch size需要变小 batch size变小的时候，loss是会更低的；作为对比实验我跑了一组使用adamW的batch size变小的实验实验结果显示：muon优化器和adamW优化器loss曲线几乎重合，最后评估指标也无明显差异 > > 怀疑这里muon的实现有问题，或者muon无用 > >> 你好，可以请问一下还需要修改哪里呢，现在还是会报KeyError: 'use_muon'，还有这个代码适配zero2吗 > > 好像不支持zero3 、2，这里可以将将use_muon作为自定义属性直接附加到参数张量上，但是我分类了一下参数，发现 146 个参数由 Muon 优化器内部的 AdamW...