weiboSpider icon indicating copy to clipboard operation
weiboSpider copied to clipboard

随机等待时长已经加到非常长了,但还是会在相似的页数被封禁

Open ethanncai opened this issue 1 year ago • 3 comments

为了更好的解决问题,请认真回答下面的问题。等到问题解决,请及时关闭本issue。

  • 问:请您指明哪个版本运行出错(github版/PyPi版/全部)?

答: github版

  • 问:您使用的是否是最新的程序(是/否)?

答: 是的

  • 问:爬取任意用户都会运行出错吗(是/否)?

答: 否,只尝试了一个用户

  • 问:若只有爬特定微博时才出错,能否提供出错微博的weibo_id或url(非必填)?

答: weiboid -> 1640337222

  • 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?

答:

  • 问:如果方便,请您描述出错详情,最好附上错误提示。

答: "random_wait_pages": [1, 2], "random_wait_seconds": [70, 110], 在这个设置下仍然会在第200条微博(第二十页附近)被封

ethanncai avatar Apr 28 '24 12:04 ethanncai

可能和目标账号有关,某些类型的微博限制比较严。您可以修改spider.py,把range(1, page_num + 1)改成range(20, page_num + 1),这样程序就会从20页开始获取。

dataabc avatar Apr 28 '24 14:04 dataabc

感谢解答,但从20页开始获取仍然会在40页左右被封,也许确实是因为这个账号比较严,现在的解决方法是将参数设置为"random_wait_pages": [1, 2], "random_wait_seconds": [120, 180] 就可以无限获取了,为了效率只能考虑用多个代理ip同时爬

ethanncai avatar Apr 29 '24 02:04 ethanncai

爬取多个微博账号时都出现同样的情况,无法爬取。 比如以下微博目标账户:2974325495;1682207150

xiaoyequ04 avatar Jun 03 '24 00:06 xiaoyequ04

您好,我在运行时也老是会被封禁,按照您说的将spider.py,把range(1, page_num + 1)改成中断的那一页(比如269页)但并没有从269页开始爬取,而是从第一页开始爬取 屏幕截图 2025-01-13 115509

2937317664 avatar Jan 13 '25 03:01 2937317664

@2937317664 有可能您同时安装了pip版本和github版本的本程序,修改的是后者的代码。如果存在两个版本,程序默认执行pip版本,所以其它版本的修改不起作用。

dataabc avatar Jan 13 '25 08:01 dataabc

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

stale[bot] avatar Apr 26 '25 02:04 stale[bot]

Closing as stale, please reopen if you'd like to work on this further.

stale[bot] avatar May 06 '25 05:05 stale[bot]