weiboSpider icon indicating copy to clipboard operation
weiboSpider copied to clipboard

爬取用户帖子失败

Open whale-withme opened this issue 2 weeks ago • 2 comments

为了更好的解决问题,请认真回答下面的问题。等到问题解决,请及时关闭本issue。

  • 问:请您指明哪个版本运行出错(github版/PyPi版/全部)?

答:github

  • 问:您使用的是否是最新的程序(是/否)?

答:是

  • 问:爬取任意用户都会运行出错吗(是/否)?

答:是

  • 问:若只有爬特定微博时才出错,能否提供出错微博的weibo_id或url(非必填)?

答:

  • 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?

答:

  • 问:如果方便,请您描述出错详情,最好附上错误提示。

答:爬取特定用户的时候,可能是之前触发了反爬?导致反复出现以下error:


Progress: 0%| | 0/1 [00:00<?, ?it/s]list index out of range Traceback (most recent call last): File "/root/Mean-Field-LLM/weiboSpider/weibo_spider/parser/page_parser.py", line 67, in get_one_page is_exist = info[0].xpath("div/span[@class='ctt']") ~~~~^^^ IndexError: list index out of range Progress: 0%| | 0/1 [00:00<?, ?it/s] cannot unpack non-iterable NoneType object Traceback (most recent call last): File "/root/Mean-Field-LLM/weiboSpider/weibo_spider/spider.py", line 228, in get_weibo_info weibos, self.weibo_id_list, to_continue = PageParser( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ TypeError: cannot unpack non-iterable NoneType object 共爬取0条微博 信息抓取完毕 我已经增加了爬虫的间歇,但还是在100多user爬取各20条帖子之后出现这个问题,请教如何解决

whale-withme avatar Dec 12 '25 03:12 whale-withme

感谢反馈。应该是被暂时限制了,一般一段时间后,限制会自动解除。或者,您如果方便,换个账号和电脑再运行。

dataabc avatar Dec 12 '25 06:12 dataabc

感谢回复,等待后现在能爬虫了

whale-withme avatar Dec 12 '25 08:12 whale-withme

我增大了间歇时间,但是发现发现每次爬完一个用户,list里后面的用户就都获取不了了,但等我重新启动程序(cookie没有变),又能爬取新的用户了,但还是爬完一个就挂了。账户没有问题,能正常登录浏览,请问这是因为什么呢?另外发现,如果有的用户有大量转发微博(非原创微博),那基本爬个几百条程序就挂了。原创微博多的用户,反而能坚持更久。

wfy19982022 avatar Dec 22 '25 01:12 wfy19982022