Jerryme-xxm

Results 2 comments of Jerryme-xxm

感谢您的回复。 我按照run.sh,把sched由multistep改成cosine后,结果就和表格差不多了,是学习率高的问题。 当我对其原项目的配置时,把lr改成0.01,使用multistep衰减到后面也只是0.0013;而使用consine函数,就算初始0.1,后面也能衰减到0.0001-。 关于mobilenet v2训练时间的问题,我实验中 mobilenet v1: parameters:1224746 ; total_time: 16.07 mobilenet v2: parameters:2296922 ; total_time: 74.47 mobilevit_s: parameters: 5003120 ; total_time: 41.77 正常来讲vit的推理用时比mobilenet v2慢好几倍。我知道参数量和训练时间不一定成正比,训练用时和推理用时也不一定成正比,但是感觉mobilenet v2的训练速度还是有点反常。 再次感谢您的建议,我会在后面的实验一一尝试。

Just now, I test a single conv1*1 and conv3*3. conv1*1: FLOPs 49152 time 0.0471 conv3*3: FLOPs 442368 time 0.0520 Sad...