app_comments_spider
app_comments_spider copied to clipboard
如何进行持久爬取呢
我测试了爬取taptap数据,程序运行后,几分钟就爬取完毕,但是之后taptap又有了新数据,这部分新数据就爬取不到了。只能通过重启程序才能爬到新数据。有什么持久爬取的办法吗
将爬取的url的md5记录在redis里面,每次重启爬取的时候做一次碰撞