weibo-crawler
weibo-crawler copied to clipboard
关于断点续写以及被限制
trafficstars
您好 首先非常感谢weibo-crawler对我带来的帮助!
有两个问题, 第一个问题是老生常谈的user-id-list过长就会被限制的问题,在参考之前的issue修改了get_pages方法后仍然会被限制,想请问有没有其他地方可以修改来避免或者减少这一问题? 第二个问题是当被限制以后中断程序,再跑的时候如果要将list中剩余用户的信息爬下来,是否有办法进行断点续写(目前还是只能从头开始再跑一遍)
谢谢!
1.目前本程序只能通过减速缓解被限; 2.如果使用txt输入id,大部分id是断点续写的,程序会更新txt对应id的进度(since_date),会从最新日期获取到上次的since_date。
- 感谢解答!
- 如果我只爬取用户信息,时间设定的是未来的时间,since_date也没有用到,还能够进行断点续写吗?
还会重新爬用户信息,因为就一条,没必要断点。
好的! 刚刚发现如果只爬用户信息的话,修改get_pages似乎是没用的(因为前面的if since_date<=today 不会被满足),需要修改start方法增加sleep,后面有相同问题的朋友可以参见issue103。
感谢!