weibo-crawler issues

转发太多

3

有的博主转发微博数量过多，虽然开了过滤，但是也会因为过一遍导致爬取时间过长，进而导致中止，例如 Progress: 3%|█████ | 26/791 [48:19

lonely67373

请教一下怎么爬取特定微博下的转发和评论

2

比如我想要爬取 `https://weibo.cn/repost/JiTdLlKyV?uid=6700634492&&page=142` 这个微博下的所有转发和评论应该怎么做呢

tpy2f0

爬取范围不对

5

我爬一些博主的时候，比如cn域名下看能翻到早年的有一两百页，但是实际爬取中爬了3,40页就停了，时间上最早能看到16年，但是实际就爬到了20甚至21年的。我是挂了cookie的，而且这个有的博主会发生，有的就不发生。有的里面会出现‘list index out of range’报错，有的就是直接像结束那样中止。

lonely67373

HTTPSConnectionPool(host='m.weibo.cn', port=443): Max retries exceeded with url: /api/container/getIndex?containerid=1005056103252147 (Caused by ProxyError('Cannot connect to proxy.', FileNotFoundError(2, 'No such file or directory'))) Traceback (most recent call last): File "C:\Users\NAS\AppData\Local\Programs\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 700, in...

specked2527

突然出现valueerror

2

![image](https://user-images.githubusercontent.com/127092214/223063739-0af4d8b7-ae49-45ca-aa57-9b0d471bb88b.png) ValueError: invalid literal for int() with base 16: b'' 之前可以运行，换了一个用户id之后突然出现这个问题，求助一下TT

jennie2bear

报错信息抓取完毕

2

HTTPSConnectionPool(host='m.weibo.cn', port=443): Max retries exceeded with url: /api/container/getIndex?containerid=1005052590508324 (Caused by ProxyError('Cannot connect to proxy.', FileNotFoundError(2, 'No such file or directory'))) Traceback (most recent call last): File "D:\anaconda\lib\site-packages\urllib3\connectionpool.py", line 696, in...

twilight1024