MediaCrawler issues

小红书只能读取200条左右的数据。

4

为什么我再通过关键词爬取时，最多只有220条数据。基本在220条附近

Tzl4231

请问抖音如何获取到评论的图片？

1

举例如 id: 7365194297580342565，请问抖音如何获取到评论里的图片？

CalvinHere

enhancement

求问wb可以指定爬取帖子的时间范围么，例如需要爬取22年3月至6月的内容

2

July-Tea

enhancement

![QQ截图20240505220607](https://github.com/NanmiCoder/MediaCrawler/assets/74189169/fcb0be23-f98c-4c71-82c1-be81d52637ca) ![image](https://github.com/NanmiCoder/MediaCrawler/assets/74189169/9f9ad3bc-1c8b-422c-85c9-f5a527f86015)

YutakaTan

求问，如何将查询的结果导出到csv文件呢，求大大解答

2

求问，如何将查询的结果导出到csv文件呢，求大大解答 ![image](https://github.com/NanmiCoder/MediaCrawler/assets/142143715/f982a2dc-8e17-40f4-8674-ee85a6c78fcd)

XiMing666

抖音的接口参数已经更换为a_bogus参数了，抖音相关功能已失效

NanmiCoder

bug

dy和xhs二维码登录方式成功率大大降低

dy和xhs两大平台现在检测playwright自动化驱动的手段已经更新了，当前的已失效（成功很低了），扫码之后大概率会再一次出现双重验证。 xhs的表象为：扫码之后手机上选择登录成功后，浏览器还会出现滑动验证码 dy的表象为：扫码之后手机上选择登录成功后，浏览器会弹出一个对话框，让你发送短信验证所以基于上面的反爬检测，建议使用cookies登录。 ## cookies登录如下 ### 正常浏览器成功登录对应平台 1. F12进入浏览器控制台，随便找一个`xhr接口`,复制请求头的headers 2. 在config/base_config.py中添加上一部复制的cookies，填写到下面的COOKIES https://github.com/NanmiCoder/MediaCrawler/blob/46f8cc064acc145651d415cb2660b3d3af984707/config/base_config.py#L4-L5 #### cookies登录命令行 ```shell # 在执行这个命令前，最好把browser_data目录下的对应平台目录删除，比如下面是抖音的，则删除：`dy_user_data_dir` python3 main.py --platform dy --lt cookie --type search ``` ### 最后如果cookies的方式还是会出现滑块，那么手动过一下吧，目前已经将登录态的检测时间调整为5分钟。

NanmiCoder

bug

如何绕开搜索量的限制？

1

请问有什么方式能绕开搜索量的限制吗？我跑xhs的代码只能下载20条数据，怎样能大规模的爬数据呢？感谢！

Andy0731

请问如何可以爬取抖音视频数据

2

根据readme提示的命令。main.py支持search、detail、creator类型，但是爬取后的数据是包含评论的json文件，没有视频数据输出，想请教如何下载视频

hy-li751

MediaCrawler
MediaCrawler copied to clipboard

Metadata

小红书搜索结果一直返回{}

小红书只能读取200条左右的数据。

请问抖音如何获取到评论的图片？

求问wb可以指定爬取帖子的时间范围么，例如需要爬取22年3月至6月的内容

保存为csv文件时，中文出现乱码

求问，如何将查询的结果导出到csv文件呢，求大大解答

抖音的接口参数已经更换为a_bogus参数了，抖音相关功能已失效

dy和xhs二维码登录方式成功率大大降低

如何绕开搜索量的限制？

请问如何可以爬取抖音视频数据

← Metadata

Owner

Metadata

MediaCrawler MediaCrawler copied to clipboard

Metadata

← Metadata

Owner

Metadata

MediaCrawler
MediaCrawler copied to clipboard