weiboSpider
weiboSpider copied to clipboard
爬取有多个置顶微博的用户时无法爬取内容
- 问:请您指明哪个版本出了bug(github版/PyPi版/全部)?
答:github版
- 问:您使用的是否是最新的程序(是/否)?
答:是
- 问:爬取任意用户都会复现此bug吗(是/否)?
答:否
- 问:若只有爬特定微博时才出bug,能否提供出错微博的weibo_id或url(非必填)?
答:一个例子:weibo_id=1555113427
- 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?
答:N/A
- 问:如果方便,请您描述bug详情,如果代码报错,最好附上错误提示。
答:最近微博的更新允许用户有多个(也可能最多只有两个)置顶微博,但是在爬取到的xml中只有第一个会被标注为“置顶”。例子见以下截图:
这个更新导致如果爬取时间范围较窄,爬到第二个置顶微博时有很大可能性会直接识别为超出时间范围而终止爬取。
第一个置顶微博可以被正确识别为置顶,并不对发布时间进行检查。但是第二个因为没有置顶标签<span class="kt">置顶</span>会检查发布时间,而置顶微博的发布时间多半都在设定的爬取时间范围之外。
附上网页端的截图,非.cn的网页端能看到首两个微博都是置顶微博:

感谢反馈。最近比较忙,有时候修复下。
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.
Closing as stale, please reopen if you'd like to work on this further.
Duplicate of #484
花城 @.***
------------------ 原始邮件 ------------------ 发件人: "dataabc/weiboSpider" @.>; 发送时间: 2023年5月19日(星期五) 晚上9:59 @.>; @.***>; 主题: Re: [dataabc/weiboSpider] 爬取有多个置顶微博的用户时无法爬取内容 (Issue #472)
Duplicate of #484
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>