爬取用户帖子失败
为了更好的解决问题,请认真回答下面的问题。等到问题解决,请及时关闭本issue。
- 问:请您指明哪个版本运行出错(github版/PyPi版/全部)?
答:github
- 问:您使用的是否是最新的程序(是/否)?
答:是
- 问:爬取任意用户都会运行出错吗(是/否)?
答:是
- 问:若只有爬特定微博时才出错,能否提供出错微博的weibo_id或url(非必填)?
答:
- 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?
答:
- 问:如果方便,请您描述出错详情,最好附上错误提示。
答:爬取特定用户的时候,可能是之前触发了反爬?导致反复出现以下error:
Progress: 0%| | 0/1 [00:00<?, ?it/s]list index out of range Traceback (most recent call last): File "/root/Mean-Field-LLM/weiboSpider/weibo_spider/parser/page_parser.py", line 67, in get_one_page is_exist = info[0].xpath("div/span[@class='ctt']") ~~~~^^^ IndexError: list index out of range Progress: 0%| | 0/1 [00:00<?, ?it/s] cannot unpack non-iterable NoneType object Traceback (most recent call last): File "/root/Mean-Field-LLM/weiboSpider/weibo_spider/spider.py", line 228, in get_weibo_info weibos, self.weibo_id_list, to_continue = PageParser( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ TypeError: cannot unpack non-iterable NoneType object 共爬取0条微博 信息抓取完毕 我已经增加了爬虫的间歇,但还是在100多user爬取各20条帖子之后出现这个问题,请教如何解决
感谢反馈。应该是被暂时限制了,一般一段时间后,限制会自动解除。或者,您如果方便,换个账号和电脑再运行。
感谢回复,等待后现在能爬虫了
我增大了间歇时间,但是发现发现每次爬完一个用户,list里后面的用户就都获取不了了,但等我重新启动程序(cookie没有变),又能爬取新的用户了,但还是爬完一个就挂了。账户没有问题,能正常登录浏览,请问这是因为什么呢?另外发现,如果有的用户有大量转发微博(非原创微博),那基本爬个几百条程序就挂了。原创微博多的用户,反而能坚持更久。