翟持江 comments

Results 11 comments of


                                            翟持江

Update _spacy.py, Working with the new ._.trf_data object (3.7+)

This is a fix for spaCy version compatibility. I don't seem to have found any discussion about the related issue in this repository, but in the spaCy repository, you can...

[问题] 请问微博按关键词搜索只能爬取50页吗，我每次都是53页左右报错停止

对，现在用的接口只能爬这么多页，包括你在电脑或者手机端都是只能刷出来最多50页的微博帖子，要获取更多的内容需要考虑根据时间段进行筛选，我记得有一个叫做weibo-search的github项目，他是根据最多1小时细粒度，从较大的时间跨度上按照阈值爬取，不断尝试缩小时间跨度看该话题有没有更多的数据，尽可能爬取与关键字相关的帖子，你可以参考一下那个项目

[问题] xhs搜索关键字及评论时，第一次是可以的，但是Ctrl+ C停止后，在次启动一直失败

触发小红书风控了，打开你程序运行时启动的浏览器，随便点进去一个小红书帖子，这时候应该会弹出来一个二维码，验证你是否真人登录，用手机扫一下就行，扫完一次后再爬就不会有这种风控问题了

[问题] b站按up主启动时在成功登陆后直接报错退出

看起来是账号被平台监测到所引发的：json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

[问题] 小红书限制爬取多少个博文是比较可取的，还是也是只能一个关键词爬200篇笔记？（文科生不太懂这个）

> 有没有办法通过关键词搜索到更多的小红书文章啊？目前就240个左右想要分析一个话题的讨论情况所以需要时间跨度大一点的小红书是限流的，你在电脑端和手机端的浏览器上使用关键字搜索，它也是最多返回这么多数据，其它平台的解决方案，例如b站和微博都提供了按照时间段筛选数据的，但是小红书没有，所以你要是要分析话题的讨论情况，要么就是挑b站、微博这种能爬更多数据的平台，要么就是选包含小红书在内的多个平台一起爬取，然后把不同平台的数据进行一个整合，只保留相同含义的字段转换为一个文件，这可能要具备一些数据处理的能力，像我的话爬了b站、微博、小红书这三个平台的数据，最后也就汇总了含义相同的7个字段，但是数据量是明显提升上来了，你要是分析话题的话用多个平台也可以进一步分析不同平台的话题讨论热度、趋势或者侧重点等等。

When the URL contains request parameters and the `params` parameter is set, the request parameters in the URL will disappear unexpectedly.

As shown in the following Python code, my expected output should be to reasonably concatenate the request parameters in `params` with those in the `url`. `requests` handled this part well,...

翟持江

Update _spacy.py, Working with the new ._.trf_data object (3.7+)

[问题] 请问微博按关键词搜索只能爬取50页吗，我每次都是53页左右报错停止

[问题] xhs搜索关键字及评论时，第一次是可以的，但是Ctrl+ C停止后，在次启动一直失败

[问题] b站按up主启动时在成功登陆后直接报错退出

请问知乎回答现在可以正常采集吗

[问题] 小红书限制爬取多少个博文是比较可取的，还是也是只能一个关键词爬200篇笔记？（文科生不太懂这个）

When the URL contains request parameters and the `params` parameter is set, the request parameters in the URL will disappear unexpectedly.

WARNING: Import named "numpy" not found locally. Trying to resolve it at the PyPI server.

【问题】小红书爬取完的CSV文件中的日期错误

[问题] 界面的疑问