novel-downloader icon indicating copy to clipboard operation
novel-downloader copied to clipboard

想问问大佬,对于这种图片文字反爬虫的,要怎么做?想做点贡献

Open on1sm opened this issue 3 years ago • 6 comments

我最近在看御书阁这个站,他也使用了图片文字反扒,就是把部分文字变成图片,wzbodyimg,想问问这种要怎么反反爬,是去把所有小说带着图爬下来之后,后面把所有的图片用人工智能跑一遍识图然后替换文字嘛?因为现阶段我也没有哪个png2char的对照表,想问下我这个思路对不对

on1sm avatar Feb 08 '22 01:02 on1sm

http://m.yushuge.me/

on1sm avatar Feb 08 '22 01:02 on1sm

总体思路基本上和字体反爬差不多,都是先生成相应的字符映射表,然后再进行替换处理。

对于御书阁这种单字的小图片,我不太清楚传统OCR服务识别效果如何,你可以使用阿里OCR之类的API接口试一试。

个人感觉还是像字体反爬那样,先找到其基本字体,然后根据现有字体识别图片。具体可以参考我博客中处理晋江文学城字体反爬的那篇博文。

yingziwu avatar Feb 08 '22 07:02 yingziwu

谢谢,我学习下你的那个博客

on1sm avatar Feb 08 '22 10:02 on1sm

同问,图片问题解决了吗?

zzh9946 avatar Feb 20 '22 04:02 zzh9946

图片问题没有解决的方法现在,我能想到的只有个把可能的图片都请求下来,然后一个一个识别,,,很无语

on1sm avatar Feb 25 '22 12:02 on1sm

https://tesseract-ocr.github.io/tessdoc/Home.html

aelnosu avatar Feb 24 '23 23:02 aelnosu