文件保存问题
大佬您好,我在爬数据的时候,发现端口还在打印爬下来的内容,但是保存的csv文件却不再增大了
下面这张图片显示csv结果文件从11.07再也没增大过
数据明显还没有爬完,我也没有设置下载图片和视频
可能存在重复爬取问题,解决方法参考 #66 。
已经修改代码,但是目前端口打印的日期的微博,并没有保存到结果文件,而且一直再重复这个日期, 2023.7.5 17:00-17:59(关键词:淄博烧烤)
@dataabc 大佬您好,查了一下这个时间段的微博信息,依然大于五十页,那如果出现这样的情况怎么办呀?我觉得可能是因为某天依然大于50页,导致一直在搜索,而不保存,陷入死循环了
感觉如果按小时搜索还是大于50页的话,最好能判断一下,到了小时粒度如果大于50页就停止搜索,您看这个建议是否可以采纳一下呢?
FURTHER_THRESHOLD 设置成大于50的整数看看是否有效果。FURTHER_THRESHOLD代表细分页面数, 一般来说最多50,如果某搜索页面大于等于它,说明微博实际页面可能大约它,要继续细分。比如,某结果有实际100页,但网页最多显示50页,如果当前有50页,就说明可能没显示完,就细分,而50就是FURTHER_THRESHOLD 。如果FURTHER_THRESHOLD 设置的很大,就不会细分了。
@dataabc 嗯嗯,谢谢回答!这个我理解的。我想要获取尽可能详细一点的内容,如果FURTHER_THRESHOLD设置大于50,可能就不直接细分了。我的意思是,有些小时内可能小于50条不用细分,而有的小时内大于50条,就导致了陷入循环里面。是否可以加入一个判断条件,就是搜索范围已经变成小时粒度了,且页数大于50,这时候能不能设置一个停止循环的条件
search.py是相关代码。程序的逻辑是最开始使用最粗的范围(关键词和日期),如果满足FURTHER_THRESHOLD才细分,以此类推。#66 的修改就是停止循环的条件,程序不会无限循环。猜测可能之前的进度有那些打印未保存的任务,即便修改了代码也没有立即生效。
@dataabc 好的,谢谢大佬,后面我再看看
@Mar2812 您好!我也遇到了这样的问题,请问您解决了嘛?