weiboSpider icon indicating copy to clipboard operation
weiboSpider copied to clipboard

在为特定用户加入独立since date时爬取失败

Open abcabcaaaB opened this issue 1 year ago • 2 comments

感谢作者开发和维护这么好用的程序,不胜感激

  • 问:请您指明哪个版本出了bug(github版/PyPi版/全部)?

答:只用过PyPi版

  • 问:您使用的是否是最新的程序(是/否)?

答:是

  • 问:爬取任意用户都会复现此bug吗(是/否)?

答:否

  • 问:若只有爬特定微博时才出bug,能否提供出错微博的weibo_id或url(非必填)?

答:在爬取 特定用户+设置独立的since_date 时才会出现问题

  • 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?

答:失败的userId:5860352662 since_date: 2024-01-01 (也尝试过2024-07-01之类的,都不行)

  • 问:如果方便,请您描述bug详情,如果代码报错,最好附上错误提示。

答:附图中可以看到,不在user_id后设置since_date时,可以正常爬取出错用户 在设置since_date后,总页数读取正确,但在progress:0%时直接退出

作为对比,给另外一名随机用户也设置了同样的since_date,可以正常读取,所以不应该是cookie或者ip的问题 config中的的since_date设置为2010-01-01,end_date为now,其余均保持默认

屏幕截图 2024-08-01 101208 屏幕截图 2024-08-01 101444

abcabcaaaB avatar Aug 01 '24 02:08 abcabcaaaB

感谢反馈。应该是判断置顶微博出错所致,目前没有特别好的办法,你可以设置一个早于所有置顶微博的since_date。

dataabc avatar Aug 01 '24 12:08 dataabc

感谢反馈。应该是判断置顶微博出错所致,目前没有特别好的办法,你可以设置一个早于所有置顶微博的since_date。

谢谢大佬,发现此问题时其实是由于程序判断爬取结束后自动写上的since_date 看来只能单独让他爬直到受限为止了

abcabcaaaB avatar Aug 01 '24 15:08 abcabcaaaB

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

stale[bot] avatar Apr 26 '25 02:04 stale[bot]

Closing as stale, please reopen if you'd like to work on this further.

stale[bot] avatar May 06 '25 04:05 stale[bot]