weibo-search 文件保存问题

大佬您好，我在爬数据的时候，发现端口还在打印爬下来的内容，但是保存的csv文件却不再增大了

下面这张图片显示csv结果文件从11.07再也没增大过

Apr 23 '24 09:04 Mar2812

数据明显还没有爬完，我也没有设置下载图片和视频

Apr 23 '24 09:04 Mar2812

可能存在重复爬取问题，解决方法参考 #66 。

Apr 23 '24 09:04 dataabc

已经修改代码，但是目前端口打印的日期的微博，并没有保存到结果文件，而且一直再重复这个日期， 2023.7.5 17:00-17:59（关键词：淄博烧烤）

Apr 23 '24 16:04 Mar2812

@dataabc 大佬您好，查了一下这个时间段的微博信息，依然大于五十页，那如果出现这样的情况怎么办呀？我觉得可能是因为某天依然大于50页，导致一直在搜索，而不保存，陷入死循环了

Apr 23 '24 16:04 Mar2812

感觉如果按小时搜索还是大于50页的话，最好能判断一下，到了小时粒度如果大于50页就停止搜索，您看这个建议是否可以采纳一下呢？

Apr 23 '24 16:04 Mar2812

FURTHER_THRESHOLD 设置成大于50的整数看看是否有效果。FURTHER_THRESHOLD代表细分页面数，一般来说最多50，如果某搜索页面大于等于它，说明微博实际页面可能大约它，要继续细分。比如，某结果有实际100页，但网页最多显示50页，如果当前有50页，就说明可能没显示完，就细分，而50就是FURTHER_THRESHOLD 。如果FURTHER_THRESHOLD 设置的很大，就不会细分了。

Apr 24 '24 07:04 dataabc

@dataabc 嗯嗯，谢谢回答！这个我理解的。我想要获取尽可能详细一点的内容，如果FURTHER_THRESHOLD设置大于50，可能就不直接细分了。我的意思是，有些小时内可能小于50条不用细分，而有的小时内大于50条，就导致了陷入循环里面。是否可以加入一个判断条件，就是搜索范围已经变成小时粒度了，且页数大于50，这时候能不能设置一个停止循环的条件

Apr 24 '24 09:04 Mar2812

search.py是相关代码。程序的逻辑是最开始使用最粗的范围（关键词和日期），如果满足FURTHER_THRESHOLD才细分，以此类推。#66 的修改就是停止循环的条件，程序不会无限循环。猜测可能之前的进度有那些打印未保存的任务，即便修改了代码也没有立即生效。

Apr 24 '24 10:04 dataabc

@dataabc 好的，谢谢大佬，后面我再看看

Apr 24 '24 13:04 Mar2812

@Mar2812 您好！我也遇到了这样的问题，请问您解决了嘛？

Nov 02 '24 02:11 Crackpot2002