MediaCrawler icon indicating copy to clipboard operation
MediaCrawler copied to clipboard

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Results 248 MediaCrawler issues
Sort by recently updated
recently updated
newest added

好像小红书的搜索结果被限制了,一直返回{}

为什么我再通过关键词爬取时,最多只有220条数据。基本在220条附近

举例如 id: 7365194297580342565,请问抖音如何获取到评论里的图片?

enhancement

![QQ截图20240505220607](https://github.com/NanmiCoder/MediaCrawler/assets/74189169/fcb0be23-f98c-4c71-82c1-be81d52637ca) ![image](https://github.com/NanmiCoder/MediaCrawler/assets/74189169/9f9ad3bc-1c8b-422c-85c9-f5a527f86015)

求问,如何将查询的结果导出到csv文件呢,求大大解答 ![image](https://github.com/NanmiCoder/MediaCrawler/assets/142143715/f982a2dc-8e17-40f4-8674-ee85a6c78fcd)

dy和xhs两大平台现在检测playwright自动化驱动的手段已经更新了,当前的已失效(成功很低了),扫码之后大概率会再一次出现双重验证。 xhs的表象为:扫码之后手机上选择登录成功后,浏览器还会出现滑动验证码 dy的表象为:扫码之后手机上选择登录成功后,浏览器会弹出一个对话框,让你发送短信验证 所以基于上面的反爬检测,建议使用cookies登录。 ## cookies登录如下 ### 正常浏览器成功登录对应平台 1. F12进入浏览器控制台,随便找一个`xhr接口`,复制请求头的headers 2. 在config/base_config.py中添加上一部复制的cookies,填写到下面的COOKIES https://github.com/NanmiCoder/MediaCrawler/blob/46f8cc064acc145651d415cb2660b3d3af984707/config/base_config.py#L4-L5 #### cookies登录命令行 ```shell # 在执行这个命令前,最好把browser_data目录下的对应平台目录删除,比如下面是抖音的,则删除:`dy_user_data_dir` python3 main.py --platform dy --lt cookie --type search ``` ### 最后 如果cookies的方式还是会出现滑块,那么手动过一下吧,目前已经将登录态的检测时间调整为5分钟。

bug

请问有什么方式能绕开搜索量的限制吗? 我跑xhs的代码只能下载20条数据,怎样能大规模的爬数据呢?感谢!

根据readme提示的命令。main.py支持search、detail、creator类型,但是爬取后的数据是包含评论的json文件,没有视频数据输出,想请教如何下载视频