跑了1.5w之后程序自动停止了,求助!
存入csv先给停止了(即爬不到新数据),然后crawls里的文件在1个小时后才停止更新。 这是怎么回事呢?看了看之前类似的问题,里面涉及的可能原因应该不是我这个的。我是设置了每小时只爬一页那样的,而且threshold=5保证基本每天都会细分小时粒度,应该不存在翻页链接不存在类似的问题
没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。
没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。
就是每天的实际内容肯定有50页+,所以在parse_by_day按天的那个函数里面直接让他分小时粒度,by_hour里改一下只爬当页不再往下next了(因为时间不够了呜呜,要基本保证一下一年里的数据分布均匀点),所以我这里threshold设多小其实并没有啥影响,都是每小时只爬第一页然后往后走
没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。
我的问题应该就是因为cookie过期太久,爬不到新的网页,程序最后自己停止了,并且无法保存断点…………大佬有改进这个的方法吗?
cookie是scrapy官方设置的,不确定能否自动更新。建议每次爬较小的日期段,隔几次更新一下cookie,多爬几次,达到爬取大日期的目的。