weibo-crawler icon indicating copy to clipboard operation
weibo-crawler copied to clipboard

爬取的用户近期有发布微博,但却提示已爬取0条微博,数据库中也没有近期的微博数据

Open banlangen1111 opened this issue 3 years ago • 11 comments

image image

banlangen1111 avatar Apr 21 '22 05:04 banlangen1111

我也遇到了这种情况,请问大佬是什么原因呢的😭

Uriellll22 avatar Apr 21 '22 12:04 Uriellll22

@banlangen1111 @Uriellll22 有可能近期发布的微博是需要登录才可见的,需要添加有效cookie才可以。

dataabc avatar Apr 21 '22 15:04 dataabc

@banlangen1111 @Uriellll22 有可能近期发布的微博是需要登录才可见的,需要添加有效cookie才可以。

我一直都是使用cookie的,但是还是出现了这种情况,十分困扰。一开始我以为是爬取日期在4月15日。数据库中有4月15日的数据后便不再继续爬取。但将user_id_list.txt中的日期往后延至4月16号也没有办法。

banlangen1111 avatar Apr 22 '22 00:04 banlangen1111

日期指的是since_date,爬取从现在到指定since_date的微博,包括since_date这天。如果想获取某天的微博,日期是这天或早于这天就可以。我现在也不确定为什么会漏爬,你可以使用weiboSpider,看看是否能完成您的要求。

dataabc avatar Apr 22 '22 09:04 dataabc

可能是碰到了置顶微博

参考 https://github.com/dataabc/weibo-crawler/issues/289#issue-1213069764

haozewu avatar Apr 23 '22 03:04 haozewu

可能是碰到了置顶微博

参考 #289 (comment)

确实是因为置顶微博的原因,没有置顶微博的微博账号都可以正常爬取,有置顶微博的都不可以,但是我按照您修改后的代码再次运行,还是没有获取到有置顶微博的微博用户所发布的微博信息。

banlangen1111 avatar Apr 23 '22 05:04 banlangen1111

可能是碰到了置顶微博 参考 #289 (comment)

确实是因为置顶微博的原因,没有置顶微博的微博账号都可以正常爬取,有置顶微博的都不可以,但是我按照您修改后的代码再次运行,还是没有获取到有置顶微博的微博用户所发布的微博信息。

我改的是追加模式的运行过程。你要是使用其它设置,应该用类似方法过一遍。

而且我的方法也只是临时方法,这个规避方法其实并不好。但是这代码现在堆起来的逻辑太混乱了,需要重构。而重构工作量又太大。。

haozewu avatar Apr 23 '22 07:04 haozewu

请问如何判断我是用的是否是追加模式呢?是指在user_id_list.txt中uid后带有日期的模式吗?

banlangen1111 avatar Apr 25 '22 05:04 banlangen1111

请问如何判断我是用的是否是追加模式呢?是指在user_id_list.txt中uid后带有日期的模式吗?

https://github.com/dataabc/weibo-crawler#7%E5%AE%9A%E6%9C%9F%E8%87%AA%E5%8A%A8%E7%88%AC%E5%8F%96%E5%BE%AE%E5%8D%9A%E5%8F%AF%E9%80%89

中的方法3

haozewu avatar Apr 29 '22 10:04 haozewu

请问如何判断我是用的是否是追加模式呢?是指在user_id_list.txt中uid后带有日期的模式吗?

https://github.com/dataabc/weibo-crawler#7%E5%AE%9A%E6%9C%9F%E8%87%AA%E5%8A%A8%E7%88%AC%E5%8F%96%E5%BE%AE%E5%8D%9A%E5%8F%AF%E9%80%89

中的方法3

十分感谢您

banlangen1111 avatar May 03 '22 07:05 banlangen1111