Co-DETR
Co-DETR copied to clipboard
关于vit模型的困惑
请问在不同的数据集中,drop_path_rate和window_size设置了不同的值,它的依据是什么呢,为什么coco数据集的drop_path_rate和window_size比lvis的低呢。
- lvis训练的显存消耗很大,以及lvis训练使用不同的augmentation (LSJ)和分辨率,因此选择了较小的window size。
- 不同数据集上对应的最佳drop_path_rate设置可能不同。