crawlergo icon indicating copy to clipboard operation
crawlergo copied to clipboard

能否增加一个爬虫入口(url列表) 像awvs一样,因为有一些页面爬虫爬不到?

Open asdfasadfasfa opened this issue 5 years ago • 5 comments

能否增加一个爬虫入口(url列表) 像awvs一样,因为有一些页面爬虫爬不到?

asdfasadfasfa avatar Feb 11 '20 07:02 asdfasadfasfa

爬虫入口(url列表) 是指输入列表?还是指什么呢

Qianlitp avatar Feb 14 '20 03:02 Qianlitp

是的,输入列表,如果能增加输入列表,会引导爬虫去抓取一些爬虫本身发现不了的页面,另外crawlergo有一些bug,没法判断404页面,导致这些404页面也会一并输出。。。。

asdfasadfasfa avatar Feb 14 '20 06:02 asdfasadfasfa

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

  1. 如果已知路径比较多, 手工拼接比较麻烦
  2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

djerryz avatar Feb 26 '20 23:02 djerryz

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

  1. 如果已知路径比较多, 手工拼接比较麻烦
  2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

  1. 如果已知路径比较多, 手工拼接比较麻烦
  2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

vim /home/user/fuzz_dir.txt
/path_a
/path_b

可以通过 --fuzz-path-dict 配置,如:

crawlergo -c chrome --fuzz-path-dict /home/user/fuzz_dir.txt http://www.A.com/

但这个方式会覆盖掉内置的 fuzz-path, 若没有开启 --fuzz-path 可以尝试使用 --fuzz-path-dict 来指定

PIGfaces avatar May 13 '22 09:05 PIGfaces

#108

Qianlitp avatar Jul 05 '22 08:07 Qianlitp