Beanbun icon indicating copy to clipboard operation
Beanbun copied to clipboard

爬取过的页面想要定时重新爬,应该如何操作?

Open aiwhj opened this issue 7 years ago • 1 comments

翻了文档和源码,没有找到相关操作,能否对爬取过的url设置过期时间或者重复周期

aiwhj avatar Nov 09 '17 06:11 aiwhj

我使用timer定时器来定时添加到队列,但是因为去重被滤过了。而且去重用的算法是布隆算法,也无法删除其中某个url。 我想到一个办法是将url加入队列时,对每一个url添加一个参数,在执行的时候,通过参数判断是否需要定时,需要定时的时候不判断去重

aiwhj avatar Nov 10 '17 03:11 aiwhj