MG_Chen
MG_Chen
same trouble
> 应该是按你这样操作,先同比例缩放至高度为32,然后再放缩宽度! 请问一个问题,您第二步resize操作的时候,直接强行放缩宽度值,不会使图片中的字符变形严重吗(当输入图片宽高比与训练图差别较大时)? 我刚接触ocr没多久,crnn中不是说可以只统一高度,宽度任意吗? 您这个网络支持这种输入方式吗?
> > > 应该是按你这样操作,先同比例缩放至高度为32,然后再放缩宽度! > > > > > > 请问一个问题,您第二步resize操作的时候,直接强行放缩宽度值,不会使图片中的字符变形严重吗(当输入图片宽高比与训练图差别较大时)? 我刚接触ocr没多久,crnn中不是说可以只统一高度,宽度任意吗? 您这个网络支持这种输入方式吗? > > 感觉后面补0效果更好 如果测试图宽度比训练图宽度小可以直接填充补白,但是如果测试图宽度比训练图长好多时,直接压缩形变比较严重吧? 不是可以支持只固定图像高度吗? 请问您知道如何操作吗?
> @chen1234520 > 保持宽高比就行,高度到32,宽度按照一样的比例进行 > padding是为了好计算,这是和最长的保持一样就行 宽高比是训练数据的宽高比吗?我训练时尺寸320*32,但是实际测试时有些图片宽度过长,例如640*32。这中情况,输入时图片需要resize到多少?是强行压缩到320*32,还是网络直接可以接受640*32的输入尺寸?
> @chen1234520 > cnn对于输入大小是没有限制的,这里用32,主要是为了lstm的使用,一个词一个向量(如果不用32也可以,不过得加些处理,例如add或者concat)。lstm对于长度是没有限制的,每次输入一个特征向量就行。 > 这里一个batch的图片保持宽高一样,是为了好计算。 > 所以,你这里处理的时候,比如pytroch dataloader有个collate函数,你可以在那里处理,计算最长的(假定之前之前按比例缩放高度为32了),对于不够的padding补0,剩下的应该就可以直接送入网络就行了。。 您这里指的是训练过程吗? 那测试过程呢?假使训练阶段我的训练图片,宽高比为10:1,320×32。那么再测试时,一张例如1000×64尺寸的图像,是仅需要将高度缩放到32,即500*32作为输入,还是需要强行改变宽高比缩放到320×32?
need help ,too
作者使用了mobilenet中的depthwise层,该层在以下链接中有实现https://github.com/yonghenglh6/DepthwiseConvolution
放弃inplace_abn ,将所有的inplace_abn替换为官方bn
同样遇到这个问题,来个大佬说下解决办法
填坑:我的原因是warp_CTC编译时计算力不支持新版本显卡,2080及更新的显卡编译时需要修改warp_ctc中的计算力。