weibo-crawler icon indicating copy to clipboard operation
weibo-crawler copied to clipboard

关于断点续写以及被限制

Open JamesZabc opened this issue 4 years ago • 5 comments
trafficstars

您好 首先非常感谢weibo-crawler对我带来的帮助!

有两个问题, 第一个问题是老生常谈的user-id-list过长就会被限制的问题,在参考之前的issue修改了get_pages方法后仍然会被限制,想请问有没有其他地方可以修改来避免或者减少这一问题? 第二个问题是当被限制以后中断程序,再跑的时候如果要将list中剩余用户的信息爬下来,是否有办法进行断点续写(目前还是只能从头开始再跑一遍)

谢谢!

JamesZabc avatar May 22 '21 09:05 JamesZabc

1.目前本程序只能通过减速缓解被限; 2.如果使用txt输入id,大部分id是断点续写的,程序会更新txt对应id的进度(since_date),会从最新日期获取到上次的since_date。

dataabc avatar May 22 '21 11:05 dataabc

  1. 感谢解答!
  2. 如果我只爬取用户信息,时间设定的是未来的时间,since_date也没有用到,还能够进行断点续写吗?

JamesZabc avatar May 22 '21 11:05 JamesZabc

还会重新爬用户信息,因为就一条,没必要断点。

dataabc avatar May 22 '21 12:05 dataabc

好的! 刚刚发现如果只爬用户信息的话,修改get_pages似乎是没用的(因为前面的if since_date<=today 不会被满足),需要修改start方法增加sleep,后面有相同问题的朋友可以参见issue103。

JamesZabc avatar May 22 '21 14:05 JamesZabc

感谢!

JamesZabc avatar May 22 '21 14:05 JamesZabc