weibo-crawler icon indicating copy to clipboard operation
weibo-crawler copied to clipboard

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频

Results 248 weibo-crawler issues
Sort by recently updated
recently updated
newest added
trafficstars

有的播主有发300数量微博(主页显示) 实际扒取我这里只爬了198 代码全部改为1 cookie也加上了 转发的原创的 全部下载最后198 不知有没有办法直接绕过播主的限制 直接一个不落的全部下载下来。

不知道是怎么回事,比如1万条微博,下载了1%就自动停了。重新开始,从头下载,还是一样。 Progress: 1%|▋ | 31/3253 [07:09

首先非常感谢您的贡献,我受益良多。 不知能否适当改动一下代码,可以爬取指定日期范围内的微博?例如2020-05-05到2020-08-08。我试着尝试这样操作,但是好像无法达成。指定起始日期很方便,但是有时想爬取一些年代较久远的微博又不需要直至今日的。 期待您的回复,再次感谢。

Traceback (most recent call last): File "C:/Users/33490/Documents/Master/MSBA7012/project/weibo-crawler-master/weibo.py", line 1072, in get_pages self.print_user_info() File "C:/Users/33490/Documents/Master/MSBA7012/project/weibo-crawler-master/weibo.py", line 583, in print_user_info logger.info(u'用户id:%s', self.user['id']) KeyError: 'id' 设置了300+的uid,第一个uid爬取了三十几页左右开始有这个报错,然后再运行都一直是这个报错了 想请问一下这个是我的账号被封禁了呢,遇到这种情况需要等待多久,有没有快速解决的办法比如更换cookie更换账号呀 感谢~

请问这个脚本一次可以抓取多少数据? 微博有没有反爬措施? 谢谢。

Traceback (most recent call last): File "E:/weiboSpider/weiboSpider.py", line 910, in mysql_insert sql, [tuple(data.values()) for data in data_list]) File "F:\Miniconda\lib\site-packages\pymysql\cursors.py", line 182, in executemany self.rowcount = sum(self.execute(query, arg) for arg in...

将此程序放在两个不同的路径下,是否可以同时运行两个呢?

https://github.com/dataabc/weibo-crawler/blob/39022f8b9126e86097e9197f98324aa6d7ecd050/weibo.py#L545 这一行可以使用`unicodedata.normalize`来转换,替换\u200b我之前也用过,效果不太理想。 (我爬取使用的是selenium,看到你的才知道我那个太麻烦了,还是直接分析json数据方便)