MediaCrawler icon indicating copy to clipboard operation
MediaCrawler copied to clipboard

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Results 248 MediaCrawler issues
Sort by recently updated
recently updated
newest added

1. 第一个恶心者:下了我的代码,重新上传自己的,改了我的支付宝收款码,他为了骗这点小钱,还把支付宝头像换的跟我一模一样。 https://github.com/vanichocola/MediaCrawler 2.第二个恶心者:下了我的代码,重新上传自己的,移除我的所有作者信息,自己放一个副业二维码去割韭菜。 https://github.com/jiji262/MediaCrawler-new ![42f4fa986529aae7332a6597439ecd68](https://github.com/NanmiCoder/MediaCrawler/assets/47178017/01c4667a-d09e-4149-b2a7-3bd5107394b9)

![微信图片_20240409144624](https://github.com/NanmiCoder/MediaCrawler/assets/90109005/3c303740-4bed-4466-be2a-5b42f2f53f39) 这个判断有问题

[科学上网/翻墙梯子 ChatGPT可用机场](https://github.com/MelissaJackson1/kexueshangwang) 作为2024年必备的超值推荐神器,[WgetCloud机场](https://invite.wgetcloud.ltd/auth/register?code=jll8)不仅提供了多线BGP中转和双程CN2高品质线路,还在香港设有自己的机房,极具安全性和稳定性。值得一提的是,团队成员分布在海外,更进一步确保了其安全性。WgetCloud机场的运营人员拥有5年的机场行业经验,技术可靠,用户无需担忧。 在技术方面,WgetCloud机场采用Shadowsocks协议,并最近新增了对SSR、V2ray和Trojan协议的支持,各大平台软件对SS协议的兼容性也非常友好。同时,该机场支持所有主流的代理订阅格式,包括Clash、Shadowrocket、Quantumult X、Surge 4等。此外,机场采用分组管理线路节点,当单组用户人数达到400后将不再增加人数,并引入动态限速功能,确保线路的持续稳定性。 点击下方链接注册成为新用户,即可获得全员无门槛8折优惠券: ## [WgetCloud官网链接](https://invite.wgetcloud.ltd/auth/register?code=jll8) 以下为晚高峰测速: ![image](https://github.com/cadencando/SSSSRV2RayTrojanClash/assets/147260799/388e2c63-caf2-41f7-bc47-8c23c3749837)

关注到 #121 #215 等存在不少需要爬取二级评论的需求 不过如果全部评论都爬取, 会导致可爬取帖子数量骤降(可能直接基于请求量做了风控检测....) 但是也存在用户不需要爬取大量帖子, 但需要全部评论的情况....因此单独加了二级评论爬取的开关, 进行了实现 有一个比较尴尬的地方是 db 这一层, 二级评论的结构和一级评论没有多大的差距, 但是有个比较关键的 target_commet_id 感觉不可或缺, 如果要复用 xhs_note_comment 表, 可能导致不兼容之前的版本, 这里先单独弄个表, 看看大佬的思路和建议

https://github.com/NanmiCoder/MediaCrawler/blob/bba9841c268491ee1473df019b8f5b1ef4f66e74/base/base_crawler.py#L66 AbstactApiClient -> AbstractApiClient

…起始页面页数和关键字 ----- 重新整理了一下,并且pull 原仓库代码到最新。自测小红书与抖音均可正常使用起始页面的页数start_page,并使用命令行参数快捷修改 base_config 参数

小红书中core.py代码search函数 utils.logger.info(f"[XiaoHongShuCrawler.search] Note details: {note_id_list}") await self.batch_get_note_comments(note_id_list) 就结束了。