crazydogen comments

Results 5 comments of


crazydogen

好想抛弃百度，让机器仅仅根据验证码本身来学习

你可能需要聚类或者其他无监督的技术目前来讲半监督的技术(需提供部分带标签数据)可能更适合你此外有趣的是百度图片搜索文字得到的图片其实就可以充当训练集

好想抛弃百度，让机器仅仅根据验证码本身来学习

不如这样既然文字也是用图片做载体那么你的网络直接输入有文字的图片和验证码图片输出值为三项第一项(0，1) 第二, 三项为具体位置(row: 2; column: 4) 即可此时为三输出回归不过可能需要换更强大的统计学家(可参考MobileNet)

好想抛弃百度，让机器仅仅根据验证码本身来学习

![12306-outline](https://user-images.githubusercontent.com/23455010/64966731-51632e00-d86d-11e9-960c-c4f7278fc359.jpg) 这样应该会清楚点，直接改为dual-input, dual classification

个人理解目前深度学习的算法需要引入标记数据才有较高精度，这个task来说有点像两种图片的匹配并输出文字图在验证码图中的位置。可以理解成将两个图片输入后编码为一个vector 送到后面的fc之类的层，加权平均出一个代表所需信息的vector，然后设计Loss 最小化或者最大化(用梯度下降这类的优化)。如果单依靠验证码不带任何监督信息的话，感觉有点偏向于强化学习的路线了，设定一个agent 和 env，loss根据你说的游戏规则来定，这样可能最后结果没有监督学习来的准确。

好想抛弃百度，让机器仅仅根据验证码本身来学习

> 我觉得是，如果提供的信息量太少会导致凸优化很容易收敛到局部最优解，甚至根本找不到路线。 > 之前让卷积网络直接学习有噪音文字图时，就像是找不到路线一样无法收敛。必须要先根据无噪音图学一遍之后才能进一步学习。个人经验不收敛可以尝试增大FC，相对来说FCNs收敛性不高。噪声影响我感觉并没有到那么大，我之前做的项目没有单独去噪，最后结果也是可以看的。