weibo-crawler icon indicating copy to clipboard operation
weibo-crawler copied to clipboard

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频

Results 248 weibo-crawler issues
Sort by recently updated
recently updated
newest added

爬取某用户全部微博的时候,最新一条微博会漏掉 ps:最新微博的发布时间要早于我开始爬去的时间

有的用户发了1080p,有的用户发了2k视频,如何默认最高清?

大规模出现未能抓取评论

作者您好!在运行weibo.py后,程序运行了大概10分钟(只爬一个用户)后弹出报错且未生成结果文件,但是仍然显示信息抓取完毕,部分报错信息如下:HTTPSConnectionPool(host='m.weibo.cn', port=443): Max retries exceeded with url: /api/container/getIndex?containerid=1005057766160338 (Caused by ProxyError('Your proxy appears to only use HTTP and not HTTPS, try changing your proxy URL to be HTTP. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#https-proxy-error-http-proxy',...

作者大大您好,我用免cookie版本(添加了cookie)下载一位博主 从2019-09-29到now 的微博,下载后发现 excel 中和 原创微博图片 中都忽略了置顶微博(2020-08-11),并没有保存。为此,我又用cookie版(添加了cookie)下载了 从2019-09-29到now 的微博,发现cookie版保存了置顶微博,excel 中和 原创微博图片 中并没有缺失置顶微博,比免cookie版多了12张图片,正是置顶微博的内容。 请问这个小问题可以改进吗?

因为需要根据网址爬取,所以我把代码改了一下,加了一个字符串切分,只用最后一个字符串,例如迪丽热巴主页网址是https://weibo.com/u/1669879400,切分后使用1669879400可以爬取成功,但杨幂主页网址为https://weibo.com/yangmiblog,在这种情况下,就爬取失败,报错是:user_id_list中 yangmiblog id出错,是在weibo.py391行输出的,有谁能帮忙解决一下吗

我设置的是爬一个用户指定关键词。 但是保存的 csv 文件里面有多条重复数据

UserWarning: Glyph 35770 (\N{CJK UNIFIED IDEOGRAPH-8BBA}) missing from current font. plt.savefig(f"weibo/{bozhu}/pic2.png", bbox_inches='tight', dpi=300) 已经安装了eda包里的字体了,还会有这个错误信息

增加微博账号IP属地抓取只需要修改几处即可: ``` zh_list = ["生日", "所在地", "IP属地", "小学", "初中", "高中", "大学", "公司", "注册时间", "阳光信用"] en_list = [ "birthday", "location", "ip_location", ... ``` ``` def user_to_csv(self): """将爬取到的用户信息写入csv文件""" ... result_headers = [...