SPTSv2
SPTSv2 copied to clipboard
The official implementation of SPTS v2: Single-Point Text Spotting
请问Transformer Encoder为什么采用的是Swin Transformer而不是最原始的Transformer呢,不明白为什么要用Swin呢,毕竟ResNet最后一层的输出特征图并不大
作者您好, 十分感谢您的慷慨分享,使我从论文和代码中学习和收获良多。 情况如下:我尝试用现有代码,训练体量和英文数据库相当的中文数据(200k左右张图片) 参考论文,将学习率设置为5e-4,并将epochs设置为150;同时,根据我自己的训练条件,vocab_size=6w左右,使用GPU资源 8xA6000,batchsize=1。 我有两点问题向您请教: (1)完成1个epochs需要4小时左右,那么估算来150epochs至少要25天,这和您的训练时长是相符的吗?因为我发现代码中并没有结束1epoch就进行evaluation的部分,而是一直训下去,evaluation是要单独运行的,这意味着训练过程不会early stop。 (2)训练loss在3epochs后下降到0.4左右,这个数字合理吗?因为我看最早一次对epoch checkpoint保存是10 epoch,在这之前只是不断更新checkpoint.pth,我理解这是到10epochs左右测试才比较有意义,但是到了3epochs loss=0.4左右的时候,loss的下降就变得缓慢了,请问这样正常吗? 再次感谢~期待您的回复。
张老师您好!我使用您的代码训练了自己的模型,但是在我使用刚训练好的模型去识别我的数据集时,却没有结果。经过检查,是engine_sptsv2.py中的visualize 默认为false,但是我用您提供的模型去训练,却没有这个问题。想问下您,应该怎么处理呢?
安装问题
Building wheels for collected packages: cryptacular Building wheel for cryptacular (pyproject.toml) ... done WARNING: Building wheel for cryptacular failed: [Errno 2] No such file or directory: 'C:\\Users\\17378\\AppData\\Local\\Temp\\pip-wheel-brwnhhu4\\cryptacular-1.6.2-cp37-cp37m-win_amd64.whl' Failed to build...
 
训练后无效果
该训练有什么需要注意的吗,我基于totaltext进行训练但是测试发现无效果
训练自建的数据集
训练自建数据集的时候怎么转换成模型所对应的json格式