weibo-crawler
weibo-crawler copied to clipboard
最近的下载总会自动中断
不知道是怎么回事,比如1万条微博,下载了1%就自动停了。重新开始,从头下载,还是一样。 Progress: 1%|▋ | 31/3253 [07:09<12:24:35, 13.87s/it] Progress: 1%|▋ | 31/3253 [07:12<12:28:33, 13.94s/it] 287条微博写入csv文件完毕,保存路径:
感谢反馈。很可能你是通过txt输入id的,txt会保存上次的进度,达到上次的进度就自动停了。
@dataabc 感谢大佬的回复,我重新检查了一下,直接在config里输入id。 之后又测试了usreid.txt的方式。id后面没有日期。 还是会中断, config里日期我也写到2009年,以便获取最早的 。 还尝试了将待机时间调整到等120秒到200秒。 像1万条的微博量,都是在1%到3%就中断了
我知道了。因为部分微博数量较多,接口只能显示一部分,后面都是空。所以为了避免无用的页面,就直接跳过了,这是无法避免的。这个问题在cookie版是能解决的,如果方便,可以使用cookie版。
@dataabc 感谢大佬回复。我用spider下载,使用过程中,也会出现一样的情况,就是下载一段时间,窗口就自动关闭了,检查txt文件。下载的也不全。然后换了电脑,换了ip也会有这种情况发生。 举例id 6373105193 现在我用老实的办法,就是查csv txt,看一下,最后一条的日期,然后改"end_date": 。接着再下。
cookie版end_date值不是now时,如果微博很多,不太稳定,会出现漏微博的情况,为now时应该不会出现,你可以把值设为now。