MediaCrawler
MediaCrawler copied to clipboard
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
1. 第一个恶心者:下了我的代码,重新上传自己的,改了我的支付宝收款码,他为了骗这点小钱,还把支付宝头像换的跟我一模一样。 https://github.com/vanichocola/MediaCrawler 2.第二个恶心者:下了我的代码,重新上传自己的,移除我的所有作者信息,自己放一个副业二维码去割韭菜。 https://github.com/jiji262/MediaCrawler-new 
菜鸡跪求
 这个判断有问题
[科学上网/翻墙梯子 ChatGPT可用机场](https://github.com/MelissaJackson1/kexueshangwang) 作为2024年必备的超值推荐神器,[WgetCloud机场](https://invite.wgetcloud.ltd/auth/register?code=jll8)不仅提供了多线BGP中转和双程CN2高品质线路,还在香港设有自己的机房,极具安全性和稳定性。值得一提的是,团队成员分布在海外,更进一步确保了其安全性。WgetCloud机场的运营人员拥有5年的机场行业经验,技术可靠,用户无需担忧。 在技术方面,WgetCloud机场采用Shadowsocks协议,并最近新增了对SSR、V2ray和Trojan协议的支持,各大平台软件对SS协议的兼容性也非常友好。同时,该机场支持所有主流的代理订阅格式,包括Clash、Shadowrocket、Quantumult X、Surge 4等。此外,机场采用分组管理线路节点,当单组用户人数达到400后将不再增加人数,并引入动态限速功能,确保线路的持续稳定性。 点击下方链接注册成为新用户,即可获得全员无门槛8折优惠券: ## [WgetCloud官网链接](https://invite.wgetcloud.ltd/auth/register?code=jll8) 以下为晚高峰测速: 
关注到 #121 #215 等存在不少需要爬取二级评论的需求 不过如果全部评论都爬取, 会导致可爬取帖子数量骤降(可能直接基于请求量做了风控检测....) 但是也存在用户不需要爬取大量帖子, 但需要全部评论的情况....因此单独加了二级评论爬取的开关, 进行了实现 有一个比较尴尬的地方是 db 这一层, 二级评论的结构和一级评论没有多大的差距, 但是有个比较关键的 target_commet_id 感觉不可或缺, 如果要复用 xhs_note_comment 表, 可能导致不兼容之前的版本, 这里先单独弄个表, 看看大佬的思路和建议
https://github.com/NanmiCoder/MediaCrawler/blob/bba9841c268491ee1473df019b8f5b1ef4f66e74/base/base_crawler.py#L66 AbstactApiClient -> AbstractApiClient
…起始页面页数和关键字 ----- 重新整理了一下,并且pull 原仓库代码到最新。自测小红书与抖音均可正常使用起始页面的页数start_page,并使用命令行参数快捷修改 base_config 参数
小红书中core.py代码search函数 utils.logger.info(f"[XiaoHongShuCrawler.search] Note details: {note_id_list}") await self.batch_get_note_comments(note_id_list) 就结束了。