DEIM
DEIM copied to clipboard
resume断点续训,接着训练loss从31增加到46,epoch训练时长从3小时增加5小时
非常感谢你对我们工作的关注和感兴趣。 你这里提到的resume training是否是在开启了Dense O2O前后的?因为该阶段会增加objects数,Decoder阶段的Self-Attention会跟Denoising queries相关——objects越多,Denoising queries越多,Self-Attention变得越cost。同时Loss肯定也会越大的。