weibo-crawler
weibo-crawler copied to clipboard
新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
转发太多
有的博主转发微博数量过多,虽然开了过滤,但是也会因为过一遍导致爬取时间过长,进而导致中止,例如 Progress: 3%|█████ | 26/791 [48:19
比如我想要爬取 `https://weibo.cn/repost/JiTdLlKyV?uid=6700634492&&page=142` 这个微博下的所有转发和评论应该怎么做呢
爬取范围不对
我爬一些博主的时候,比如cn域名下看能翻到早年的有一两百页,但是实际爬取中爬了3,40页就停了,时间上最早能看到16年,但是实际就爬到了20甚至21年的。我是挂了cookie的,而且这个有的博主会发生,有的就不发生。有的里面会出现‘list index out of range’报错,有的就是直接像结束那样中止。
请问一下这个在哪里设置
求出个视频教程
求出个安装环境变量以及详细的运行视频
HTTPSConnectionPool(host='m.weibo.cn', port=443): Max retries exceeded with url: /api/container/getIndex?containerid=1005056103252147 (Caused by ProxyError('Cannot connect to proxy.', FileNotFoundError(2, 'No such file or directory'))) Traceback (most recent call last): File "C:\Users\NAS\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 700, in...
 ValueError: invalid literal for int() with base 16: b'' 之前可以运行,换了一个用户id之后突然出现这个问题,求助一下TT
HTTPSConnectionPool(host='m.weibo.cn', port=443): Max retries exceeded with url: /api/container/getIndex?containerid=1005052590508324 (Caused by ProxyError('Cannot connect to proxy.', FileNotFoundError(2, 'No such file or directory'))) Traceback (most recent call last): File "D:\anaconda\lib\site-packages\urllib3\connectionpool.py", line 696, in...
只爬取用户信息
老哥代码真的超级给力!!!但是我想知道怎样设置只爬取用户信息呀,我不需要他们的微博,盼复!
TypeError: deprecated() got an unexpected keyword argument 'name' 这是个啥报错 我已经不止一次遇见这个问题了太奇怪了