weiboSpider
weiboSpider copied to clipboard
建议增加更小访问量下的等待时间的设置
- 问:请说明需要什么新功能。
答:建议增加更小访问量下的等待时间的设置
- 问:请说明添加该功能的意义。(非必填)
答:目前等待时间的设置是在每n页内容爬取完之后的,但一页里面其实就有20个微博,如果微博里面还有图片/视频的话,那1页的访问就会产生30个左右的访问量,很容易造成被随机ban, 所以建议在util.handl_html中追加等待时间的设置,这样可以避免极短时间内大大量访问,避免被随机ban。
我的亲生经历, 爬取13000条左右的微博(大概600多页),如果只用现在的等待时间设置,即便将每页的等待时间设置成2分钟,仍然有可能在爬取200多页的时候被ban。(实际上就是被随机ban了,有时候50多页被ban,也有时候70多页被ban,最多一次大概220多页被ban) 但在util.handl_html中增加了1s的等待时间后,就能顺利爬取到全部微博而不被ban了。 如果结束时间不用now,而用具体日期的话,经常会少爬取到很多微博。
感谢建议。
我考虑看看,目前认为是一个非常不错的特性,但最近我手头只有手机,没法写代码,过一段时间再看看,非常感谢。
当设置非now时,调用的别的url,确实会可能少很多,这没法控制。
你好,想请问一下是在哪里可以添加util.handl_html里的等待时间呢?感谢!
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.
Closing as stale, please reopen if you'd like to work on this further.