crawlergo 能否增加一个爬虫入口（url列表）像awvs一样，因为有一些页面爬虫爬不到？

能否增加一个爬虫入口（url列表）像awvs一样，因为有一些页面爬虫爬不到？

Open asdfasadfasfa opened this issue 5 years ago • 5 comments

能否增加一个爬虫入口（url列表）像awvs一样，因为有一些页面爬虫爬不到？

Feb 11 '20 07:02 asdfasadfasfa

爬虫入口（url列表）是指输入列表？还是指什么呢

Feb 14 '20 03:02 Qianlitp

是的，输入列表，如果能增加输入列表，会引导爬虫去抓取一些爬虫本身发现不了的页面，另外crawlergo有一些bug，没法判断404页面，导致这些404页面也会一并输出。。。。

Feb 14 '20 06:02 asdfasadfasfa

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

如果已知路径比较多, 手工拼接比较麻烦
这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

Feb 26 '20 23:02 djerryz

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

如果已知路径比较多, 手工拼接比较麻烦

这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

vim /home/user/fuzz_dir.txt

/path_a
/path_b

可以通过 --fuzz-path-dict 配置，如：

crawlergo -c chrome --fuzz-path-dict /home/user/fuzz_dir.txt http://www.A.com/

但这个方式会覆盖掉内置的 fuzz-path，若没有开启 --fuzz-path 可以尝试使用 --fuzz-path-dict 来指定

May 13 '22 09:05 PIGfaces

#108

Jul 05 '22 08:07 Qianlitp

crawlergo crawlergo copied to clipboard

能否增加一个爬虫入口（url列表） 像awvs一样，因为有一些页面爬虫爬不到？

crawlergo
crawlergo copied to clipboard

能否增加一个爬虫入口（url列表）像awvs一样，因为有一些页面爬虫爬不到？