weibo-crawler
weibo-crawler copied to clipboard
新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
大佬好,最近用程序爬取微博到200页左右的时候(用户全部微博在1w左右)程序就自动停了,显示Process exit code 0 ,这是因为中途被限制了吗?想问下如何解决?
想看大佬爬点别的
可不可做个小红书和抖音哔哩哔哩啥的爬虫,感觉微博用得越来越少了😋
config中的since_date已经是标准格式,但是还是会报错(可能是因为user_id_list对应的是路径名),请问有什么方法可以解决这个问题?
请问访问的时候经常遇到418怎么办?目前设置的等待时间: 每1-5个页面,睡眠3-5秒 读取下一个用户,睡眠10-20秒
访问网址
能不能使用weibo.com来进行访问,而不是m.weibo.cn。因为我发现部分博主的视频,在weibo.com网址下是可以正常访问到视频链接的,但是在m.weibo.cn网址下,会报错无法下载这个视频。通过url打开发现是403
大佬好,我现在在尝试抓去微博转发和评论,并且添加了有效的cookie。但是目前只能抓取到前2000条微博的转发和评论数据(和无cookie抓取微博是一样的),并反复确认过了cookie的有效性,想请问一下原因。 感谢大佬!
有些账号可能一天会发不少条微博,目前只精确到天有时在文件较多的情况下显得有些乱。 在微博网页版上是能看到发布的微博具体的小时和分钟,有可能获取到这个信息并用于文件命名吗?
我删了user_id_list.txt里的时间,删了数据库内容,删了weibodata.db,追加更新还是从我上次拉取的时间点给我取最新的微博,这是我哪里参数没改吗
error.log显示 2025-07-03 00:41:01,012 - ERROR - weibo.py[:2221] - 'NoneType' object has no attribute 'encoding' Traceback (most recent call last): File "C:\Users\Administrator\Desktop\weibo-crawler-master\weibo.py", line 2183, in get_pages if self.get_user_info() != 0: ~~~~~~~~~~~~~~~~~~^^...