Beanbun
Beanbun copied to clipboard
爬取过的页面想要定时重新爬,应该如何操作?
翻了文档和源码,没有找到相关操作,能否对爬取过的url设置过期时间或者重复周期
我使用timer定时器来定时添加到队列,但是因为去重被滤过了。而且去重用的算法是布隆算法,也无法删除其中某个url。 我想到一个办法是将url加入队列时,对每一个url添加一个参数,在执行的时候,通过参数判断是否需要定时,需要定时的时候不判断去重