SPTSv2
SPTSv2 copied to clipboard
关于训练时长和loss情况
作者您好,
十分感谢您的慷慨分享,使我从论文和代码中学习和收获良多。
情况如下:我尝试用现有代码,训练体量和英文数据库相当的中文数据(200k左右张图片) 参考论文,将学习率设置为5e-4,并将epochs设置为150;同时,根据我自己的训练条件,vocab_size=6w左右,使用GPU资源 8xA6000,batchsize=1。
我有两点问题向您请教: (1)完成1个epochs需要4小时左右,那么估算来150epochs至少要25天,这和您的训练时长是相符的吗?因为我发现代码中并没有结束1epoch就进行evaluation的部分,而是一直训下去,evaluation是要单独运行的,这意味着训练过程不会early stop。 (2)训练loss在3epochs后下降到0.4左右,这个数字合理吗?因为我看最早一次对epoch checkpoint保存是10 epoch,在这之前只是不断更新checkpoint.pth,我理解这是到10epochs左右测试才比较有意义,但是到了3epochs loss=0.4左右的时候,loss的下降就变得缓慢了,请问这样正常吗?
再次感谢~期待您的回复。