weiboSpider icon indicating copy to clipboard operation
weiboSpider copied to clipboard

爬取有多个置顶微博的用户时无法爬取内容

Open jerrylaikr opened this issue 3 years ago • 2 comments
trafficstars

  • 问:请您指明哪个版本出了bug(github版/PyPi版/全部)?

答:github版

  • 问:您使用的是否是最新的程序(是/否)?

答:是

  • 问:爬取任意用户都会复现此bug吗(是/否)?

答:否

  • 问:若只有爬特定微博时才出bug,能否提供出错微博的weibo_id或url(非必填)?

答:一个例子:weibo_id=1555113427

  • 问:若您已提供出错微博的weibo_id或url,可忽略此内容,否则能否提供出错账号的user_id及您配置的since_date,方便我们定位出错微博(非必填)?

答:N/A

  • 问:如果方便,请您描述bug详情,如果代码报错,最好附上错误提示。

答:最近微博的更新允许用户有多个(也可能最多只有两个)置顶微博,但是在爬取到的xml中只有第一个会被标注为“置顶”。例子见以下截图: Screenshot 2022-09-03 215658 这个更新导致如果爬取时间范围较窄,爬到第二个置顶微博时有很大可能性会直接识别为超出时间范围而终止爬取。 第一个置顶微博可以被正确识别为置顶,并不对发布时间进行检查。但是第二个因为没有置顶标签<span class="kt">置顶</span>会检查发布时间,而置顶微博的发布时间多半都在设定的爬取时间范围之外。

jerrylaikr avatar Sep 04 '22 02:09 jerrylaikr

附上网页端的截图,非.cn的网页端能看到首两个微博都是置顶微博: image

jerrylaikr avatar Sep 04 '22 02:09 jerrylaikr

感谢反馈。最近比较忙,有时候修复下。

dataabc avatar Sep 08 '22 10:09 dataabc

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

stale[bot] avatar Nov 12 '22 05:11 stale[bot]

Closing as stale, please reopen if you'd like to work on this further.

stale[bot] avatar Nov 22 '22 21:11 stale[bot]

Duplicate of #484

songzy12 avatar May 19 '23 13:05 songzy12

花城 @.***

 

------------------ 原始邮件 ------------------ 发件人: "dataabc/weiboSpider" @.>; 发送时间: 2023年5月19日(星期五) 晚上9:59 @.>; @.***>; 主题: Re: [dataabc/weiboSpider] 爬取有多个置顶微博的用户时无法爬取内容 (Issue #472)

Duplicate of #484

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

pwzcen avatar May 19 '23 14:05 pwzcen