weibo-crawler icon indicating copy to clipboard operation
weibo-crawler copied to clipboard

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频

Results 248 weibo-crawler issues
Sort by recently updated
recently updated
newest added
trafficstars

说明里好像只能获取第一级评论,楼中楼可以获取吗

人民日报的微博内容较多,我添加了cookie值,采集到最新的2000条就自动停止了。

请问一下,为什么在运行完weibo.py文件后,进度条显示100%完成,文字提示也是微博爬取完成,但实际上爬取0条微博呢?weibo这个文件夹下也没有生成文件。最近的报错信息如下: Traceback (most recent call last): File "weibo.py", line 561, in get_one_page wb['created_at'], '%Y-%m-%d') File "/Users/opt/anaconda3/lib/python3.7/_strptime.py", line 577, in _strptime_datetime tt, fraction, gmtoff_fraction = _strptime(data_string, format) File "/Users/opt/anaconda3/lib/python3.7/_strptime.py", line 359,...

请问爬取的视频可以保存默认的名字吗?,现在爬下来的视频都是日期命名,能直接保存他默认的名字吗?

依赖包都安装了,但还是失败了。 ```js λ python weibo.py Error: HTTPSConnectionPool(host='m.weibo.cn', port=443): Max retries exceeded with url: /api/container/getIndex?containerid=1005051629810574 (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')])"))) Traceback (most recent call last): File...

在抓取特定博主的微博时,能否增加一个即时推送接口,推送请求地址可配置。例如我想在关注的博主发新微博后就推送到bark上。微博的客户端新微博通知功能只有会员才能用,并且还一堆广告。

关注的财经博主(Newsfeed)微博设置为仅粉丝可见,请问这种情况有办法处理吗?

get_article_url()中,需要取消逻辑,“发布了头条文章”不能作为关键字来判断是否抓取文章链接,会造成article_url为空的问题

我已经尝试增加sleep到60-120秒,每一页sleep一次。但是在爬取数量巨大的微博(一直到2017年,接近6000条)时仍然会中途出现被限制,被迫中断(比如到2019年停止了)。 我尝试了采用手动设置开始页码的方式,设置从286页开始 self.start_page = config.get('start_page', 1) # 开始爬的页,如果中途被限制而结束可以用此定义开始页码 中断页码计算时采用已爬取的微博数除以10 这样设置后执行的话,观察记录我却发现依然是从第一页开始爬取,设置开始页码无效 如果重新从头再开始爬取的话,大量时间就花费在前面已爬取到的地方,而且还有可能在再次爬取已获得的内容时被限制。 所以能不能设置读取已爬取到的微博,从中断的时间点开始继续爬取?或者我手动设置爬取的开始时间到终止时间(即从19年终止的时间继续开始爬到17年)

请问能否修改下载的图片无水印,现在下载的都是有水印的