crawlergo
crawlergo copied to clipboard
feature & fix
在使用crawlergo爬取一个web服务时,爬取结果里有很多无效的请求,发现是从js取了一些字段,然后进行拼接,这些url其实都不存在,但爬虫访问这些地址时前端会自动跳转到登录界面,最终导致出现大量无效地址。我设置了一个关键字用于过滤页面还有相应关键字的请求,在实现这个feature的过程中发现和修复了一些其他问题,如下: feat
新增IgnoreResponsekeywords用于过滤用户设置的符合响应的请求; 过滤响应码为404/502的请求 过滤报错的https请求;
fix
将cookie存储在浏览器上下文中 修复ignore-url-keyword设置无效问题
谢谢贡献代码,我找时间review下
在使用crawlergo爬取一个web服务时,爬取结果里有很多无效的请求,发现是从js取了一些字段,然后进行拼接,这些url其实都不存在,但爬虫访问这些地址时前端会自动跳转到登录界面,最终导致出现大量无效地址。我设置了一个关键字用于过滤页面还有相应关键字的请求,在实现这个feature的过程中发现和修复了一些其他问题,如下: feat
新增IgnoreResponsekeywords用于过滤用户设置的符合响应的请求; 过滤响应码为404/502的请求 过滤报错的https请求;
fix
将cookie存储在浏览器上下文中 修复ignore-url-keyword设置无效问题
Errors are an important clue when scanning for vulnerabilities. Also cookies may also be required on subdomains.