crawlergo icon indicating copy to clipboard operation
crawlergo copied to clipboard

feature & fix

Open gjm-anban opened this issue 2 years ago • 1 comments

在使用crawlergo爬取一个web服务时,爬取结果里有很多无效的请求,发现是从js取了一些字段,然后进行拼接,这些url其实都不存在,但爬虫访问这些地址时前端会自动跳转到登录界面,最终导致出现大量无效地址。我设置了一个关键字用于过滤页面还有相应关键字的请求,在实现这个feature的过程中发现和修复了一些其他问题,如下: feat

新增IgnoreResponsekeywords用于过滤用户设置的符合响应的请求; 过滤响应码为404/502的请求 过滤报错的https请求;

fix

将cookie存储在浏览器上下文中 修复ignore-url-keyword设置无效问题

gjm-anban avatar Sep 09 '22 07:09 gjm-anban

谢谢贡献代码,我找时间review下

Qianlitp avatar Sep 13 '22 07:09 Qianlitp

在使用crawlergo爬取一个web服务时,爬取结果里有很多无效的请求,发现是从js取了一些字段,然后进行拼接,这些url其实都不存在,但爬虫访问这些地址时前端会自动跳转到登录界面,最终导致出现大量无效地址。我设置了一个关键字用于过滤页面还有相应关键字的请求,在实现这个feature的过程中发现和修复了一些其他问题,如下: feat

新增IgnoreResponsekeywords用于过滤用户设置的符合响应的请求; 过滤响应码为404/502的请求 过滤报错的https请求;

fix

将cookie存储在浏览器上下文中 修复ignore-url-keyword设置无效问题

Errors are an important clue when scanning for vulnerabilities. Also cookies may also be required on subdomains.

byposeidon avatar Nov 29 '22 08:11 byposeidon