weibo-crawler 关于断点续写以及被限制

关于断点续写以及被限制

Open JamesZabc opened this issue 4 years ago • 5 comments

trafficstars

您好首先非常感谢weibo-crawler对我带来的帮助！

有两个问题，第一个问题是老生常谈的user-id-list过长就会被限制的问题，在参考之前的issue修改了get_pages方法后仍然会被限制，想请问有没有其他地方可以修改来避免或者减少这一问题？第二个问题是当被限制以后中断程序，再跑的时候如果要将list中剩余用户的信息爬下来，是否有办法进行断点续写（目前还是只能从头开始再跑一遍）

谢谢！

May 22 '21 09:05 JamesZabc

1.目前本程序只能通过减速缓解被限； 2.如果使用txt输入id，大部分id是断点续写的，程序会更新txt对应id的进度（since_date），会从最新日期获取到上次的since_date。

May 22 '21 11:05 dataabc

感谢解答！
如果我只爬取用户信息，时间设定的是未来的时间，since_date也没有用到，还能够进行断点续写吗？

May 22 '21 11:05 JamesZabc

还会重新爬用户信息，因为就一条，没必要断点。

May 22 '21 12:05 dataabc

好的！刚刚发现如果只爬用户信息的话，修改get_pages似乎是没用的（因为前面的if since_date<=today 不会被满足），需要修改start方法增加sleep，后面有相同问题的朋友可以参见issue103。

May 22 '21 14:05 JamesZabc

感谢！

May 22 '21 14:05 JamesZabc

weibo-crawler weibo-crawler copied to clipboard

关于断点续写以及被限制

weibo-crawler
weibo-crawler copied to clipboard