Zhuofan Zong
Zhuofan Zong
可以百度一下gradient accumulation的实现方法,把你的有效batch size加到16试试
学习率使用config原始的,比如2e-4,batch size保持16,即显卡数量*config里samples_per_gpu等于16
不需要额外设置,采用默认设置就行
Similar to Co-Deformable-DETR, the content queries are obtained via an [MLP layer](https://github.com/Sense-X/Co-DETR/blob/d01ef8b657cc3711c59759cf863fe5ab9aa50e76/projects/models/transformer.py#L412).
推理时模型forward不会调用辅助分支。swin large和tiny的速度差异有详细的数字对比吗
可以看看总的infer时间中,backbone infer分别占多少
这个应该是通信的问题,只依靠目前的信息我也无法解决这个问题
需要根据lvis的config进行修改
Can you show me the meta information (category and id) of your dataset and the custom dataset definition?
We also failed to reproduce the official performance. Our model got a score of 1473.