翟持江
翟持江
This is a fix for spaCy version compatibility. I don't seem to have found any discussion about the related issue in this repository, but in the spaCy repository, you can...
对,现在用的接口只能爬这么多页,包括你在电脑或者手机端都是只能刷出来最多50页的微博帖子,要获取更多的内容需要考虑根据时间段进行筛选,我记得有一个叫做weibo-search的github项目,他是根据最多1小时细粒度,从较大的时间跨度上按照阈值爬取,不断尝试缩小时间跨度看该话题有没有更多的数据,尽可能爬取与关键字相关的帖子,你可以参考一下那个项目
触发小红书风控了,打开你程序运行时启动的浏览器,随便点进去一个小红书帖子,这时候应该会弹出来一个二维码,验证你是否真人登录,用手机扫一下就行,扫完一次后再爬就不会有这种风控问题了
看起来是账号被平台监测到所引发的:json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
我的xhs也能正常运行
> 有没有办法通过关键词搜索到更多的小红书文章啊?目前就240个左右 想要分析一个话题的讨论情况 所以需要时间跨度大一点的 小红书是限流的,你在电脑端和手机端的浏览器上使用关键字搜索,它也是最多返回这么多数据,其它平台的解决方案,例如b站和微博都提供了按照时间段筛选数据的,但是小红书没有,所以你要是要分析话题的讨论情况,要么就是挑b站、微博这种能爬更多数据的平台,要么就是选包含小红书在内的多个平台一起爬取,然后把不同平台的数据进行一个整合,只保留相同含义的字段转换为一个文件,这可能要具备一些数据处理的能力,像我的话爬了b站、微博、小红书这三个平台的数据,最后也就汇总了含义相同的7个字段,但是数据量是明显提升上来了,你要是分析话题的话用多个平台也可以进一步分析不同平台的话题讨论热度、趋势或者侧重点等等。
As shown in the following Python code, my expected output should be to reasonably concatenate the request parameters in `params` with those in the `url`. `requests` handled this part well,...
To specify the encoding correctly, you should use `--encoding=utf8`
> 除了这个问题以外,还想询问一下爬取帖子数量的上限,我设置爬取500条只爬取到了220条左右,是因为到达数量上限,还是相关帖子数量只有这么多。假如我需要5000条左右的帖子能够实现吗? 小红书有限流,正常用电脑访问也就这么多条帖子
是不是没有登陆,我测试的时候是好着的,能正常获取评论