MediaCrawler
MediaCrawler copied to clipboard
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
好像小红书的搜索结果被限制了,一直返回{}
为什么我再通过关键词爬取时,最多只有220条数据。基本在220条附近
 
求问,如何将查询的结果导出到csv文件呢,求大大解答 
dy和xhs两大平台现在检测playwright自动化驱动的手段已经更新了,当前的已失效(成功很低了),扫码之后大概率会再一次出现双重验证。 xhs的表象为:扫码之后手机上选择登录成功后,浏览器还会出现滑动验证码 dy的表象为:扫码之后手机上选择登录成功后,浏览器会弹出一个对话框,让你发送短信验证 所以基于上面的反爬检测,建议使用cookies登录。 ## cookies登录如下 ### 正常浏览器成功登录对应平台 1. F12进入浏览器控制台,随便找一个`xhr接口`,复制请求头的headers 2. 在config/base_config.py中添加上一部复制的cookies,填写到下面的COOKIES https://github.com/NanmiCoder/MediaCrawler/blob/46f8cc064acc145651d415cb2660b3d3af984707/config/base_config.py#L4-L5 #### cookies登录命令行 ```shell # 在执行这个命令前,最好把browser_data目录下的对应平台目录删除,比如下面是抖音的,则删除:`dy_user_data_dir` python3 main.py --platform dy --lt cookie --type search ``` ### 最后 如果cookies的方式还是会出现滑块,那么手动过一下吧,目前已经将登录态的检测时间调整为5分钟。
请问有什么方式能绕开搜索量的限制吗? 我跑xhs的代码只能下载20条数据,怎样能大规模的爬数据呢?感谢!
根据readme提示的命令。main.py支持search、detail、creator类型,但是爬取后的数据是包含评论的json文件,没有视频数据输出,想请教如何下载视频