jinhaolin

Results 1 issues of jinhaolin

在添加新任务时,源码中时这样实现的 ![image](https://user-images.githubusercontent.com/12808695/58534990-539e6f80-821f-11e9-8709-e24e1b5672c3.png) 上面的判断条件 isDuplicate 是用来判断url是否在去重队列中,如果没被去重,才可以加入未抓取任务队列,该方法源码中实现: ![image](https://user-images.githubusercontent.com/12808695/58535040-6749d600-821f-11e9-99e4-2b85a0aeeda9.png) 上面的实现是通过往set中添加url的方式,根据返回值来判断之前该url是否存在set中。这就表示,在判断的同时,就把要抓取的url添加到了去重集合中。 **我的问题:** 如果该url由于网站本身的问题,导致我这次未抓取成功。过几天我再抓取时,就会被去重功能过滤掉,导致即使抓取出错也不能再次进行抓取。 这里为什么不设计成当页面抓取完成以后再把url加入去重集合中。或者其他更合理的方式解决我的问题。 Webmagic我是初次接触,也可能存在理解偏差,望作者或者了解的大神们能帮忙解答,万分感谢。