crawlergo feature & fix

在使用crawlergo爬取一个web服务时，爬取结果里有很多无效的请求，发现是从js取了一些字段，然后进行拼接，这些url其实都不存在，但爬虫访问这些地址时前端会自动跳转到登录界面，最终导致出现大量无效地址。我设置了一个关键字用于过滤页面还有相应关键字的请求，在实现这个feature的过程中发现和修复了一些其他问题，如下： feat

新增IgnoreResponsekeywords用于过滤用户设置的符合响应的请求；过滤响应码为404/502的请求过滤报错的https请求；

fix

将cookie存储在浏览器上下文中修复ignore-url-keyword设置无效问题

Sep 09 '22 07:09 gjm-anban

谢谢贡献代码，我找时间review下

Sep 13 '22 07:09 Qianlitp

在使用crawlergo爬取一个web服务时，爬取结果里有很多无效的请求，发现是从js取了一些字段，然后进行拼接，这些url其实都不存在，但爬虫访问这些地址时前端会自动跳转到登录界面，最终导致出现大量无效地址。我设置了一个关键字用于过滤页面还有相应关键字的请求，在实现这个feature的过程中发现和修复了一些其他问题，如下： feat

新增IgnoreResponsekeywords用于过滤用户设置的符合响应的请求；过滤响应码为404/502的请求过滤报错的https请求；

fix

将cookie存储在浏览器上下文中修复ignore-url-keyword设置无效问题

Errors are an important clue when scanning for vulnerabilities. Also cookies may also be required on subdomains.

Nov 29 '22 08:11 byposeidon

crawlergo crawlergo copied to clipboard

feature & fix

crawlergo
crawlergo copied to clipboard