weibo-search icon indicating copy to clipboard operation
weibo-search copied to clipboard

跑了1.5w之后程序自动停止了,求助!

Open NiuYiting2019 opened this issue 2 years ago • 4 comments

存入csv先给停止了(即爬不到新数据),然后crawls里的文件在1个小时后才停止更新。 这是怎么回事呢?看了看之前类似的问题,里面涉及的可能原因应该不是我这个的。我是设置了每小时只爬一页那样的,而且threshold=5保证基本每天都会细分小时粒度,应该不存在翻页链接不存在类似的问题

NiuYiting2019 avatar Feb 26 '23 20:02 NiuYiting2019

没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。

dataabc avatar Feb 27 '23 14:02 dataabc

没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。

就是每天的实际内容肯定有50页+,所以在parse_by_day按天的那个函数里面直接让他分小时粒度,by_hour里改一下只爬当页不再往下next了(因为时间不够了呜呜,要基本保证一下一年里的数据分布均匀点),所以我这里threshold设多小其实并没有啥影响,都是每小时只爬第一页然后往后走

NiuYiting2019 avatar Feb 27 '23 15:02 NiuYiting2019

没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。

我的问题应该就是因为cookie过期太久,爬不到新的网页,程序最后自己停止了,并且无法保存断点…………大佬有改进这个的方法吗?

NiuYiting2019 avatar Feb 27 '23 15:02 NiuYiting2019

cookie是scrapy官方设置的,不确定能否自动更新。建议每次爬较小的日期段,隔几次更新一下cookie,多爬几次,达到爬取大日期的目的。

dataabc avatar Feb 28 '23 14:02 dataabc