NiuYiting2019

Results 2 comments of NiuYiting2019

> 没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。 就是每天的实际内容肯定有50页+,所以在parse_by_day按天的那个函数里面直接让他分小时粒度,by_hour里改一下只爬当页不再往下next了(因为时间不够了呜呜,要基本保证一下一年里的数据分布均匀点),所以我这里threshold设多小其实并没有啥影响,都是每小时只爬第一页然后往后走

> 没明白每小时爬一页什么意思。threshold为5,每次爬的都很细,会很慢,这样可能比默认值多爬很多次,也有可能会出现链接不存在的情况。 我的问题应该就是因为cookie过期太久,爬不到新的网页,程序最后自己停止了,并且无法保存断点…………大佬有改进这个的方法吗?