NiuYiting2019 comments

Results 2 comments of


                                            NiuYiting2019

跑了1.5w之后程序自动停止了，求助！

> 没明白每小时爬一页什么意思。threshold为5，每次爬的都很细，会很慢，这样可能比默认值多爬很多次，也有可能会出现链接不存在的情况。就是每天的实际内容肯定有50页+，所以在parse_by_day按天的那个函数里面直接让他分小时粒度，by_hour里改一下只爬当页不再往下next了（因为时间不够了呜呜，要基本保证一下一年里的数据分布均匀点），所以我这里threshold设多小其实并没有啥影响，都是每小时只爬第一页然后往后走

跑了1.5w之后程序自动停止了，求助！

> 没明白每小时爬一页什么意思。threshold为5，每次爬的都很细，会很慢，这样可能比默认值多爬很多次，也有可能会出现链接不存在的情况。我的问题应该就是因为cookie过期太久，爬不到新的网页，程序最后自己停止了，并且无法保存断点…………大佬有改进这个的方法吗？