novel-downloader 想问问大佬，对于这种图片文字反爬虫的，要怎么做？想做点贡献

想问问大佬，对于这种图片文字反爬虫的，要怎么做？想做点贡献

Open on1sm opened this issue 3 years ago • 6 comments

我最近在看御书阁这个站，他也使用了图片文字反扒，就是把部分文字变成图片，wzbodyimg，想问问这种要怎么反反爬，是去把所有小说带着图爬下来之后，后面把所有的图片用人工智能跑一遍识图然后替换文字嘛？因为现阶段我也没有哪个png2char的对照表，想问下我这个思路对不对

Feb 08 '22 01:02 on1sm

http://m.yushuge.me/

Feb 08 '22 01:02 on1sm

总体思路基本上和字体反爬差不多，都是先生成相应的字符映射表，然后再进行替换处理。

对于御书阁这种单字的小图片，我不太清楚传统OCR服务识别效果如何，你可以使用阿里OCR之类的API接口试一试。

个人感觉还是像字体反爬那样，先找到其基本字体，然后根据现有字体识别图片。具体可以参考我博客中处理晋江文学城字体反爬的那篇博文。

Feb 08 '22 07:02 yingziwu

谢谢，我学习下你的那个博客

Feb 08 '22 10:02 on1sm

同问，图片问题解决了吗？

Feb 20 '22 04:02 zzh9946

图片问题没有解决的方法现在，我能想到的只有个把可能的图片都请求下来，然后一个一个识别，，，很无语

Feb 25 '22 12:02 on1sm

https://tesseract-ocr.github.io/tessdoc/Home.html

Feb 24 '23 23:02 aelnosu