MediaCrawler
MediaCrawler copied to clipboard
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
目前的代码实现是强依赖playwright的,导致在linux系统上部署不方便,计划将playwright抽离出去,单独提供浏览器环境的功能。
MediaCrawler ERROR [XiaoHongShuCrawler.get_note_detail] Get note detail error: required param: source_note_id not found 好像需要额外的参数了
如题,当小红书type为创作者时,默认会抓取3个内容。 1. BUG: 主页内容只能抓取到30条,从第30条开始都重复了。默认分页是30,我尝试改了一下60,无效。只能30条? 2. help : 评论 comments太多了,导致一个人的主页会抓取20多分钟......不要评论,启动参数应该怎么样设置跳过comments呢?   启动参数,修改config这2个值后启动:` python main.py` 
同一文件中的异步函数save_data_to_csv并没有使用锁且正常运行,为什么数据保存类型为json时需要使用锁。 因为我发现随着json文件逐渐变大,爬取数据的速度开始急剧下降,所以观察了一下这部分代码 ```python async with self.lock: if os.path.exists(save_file_name): async with aiofiles.open(save_file_name, 'r', encoding='utf-8') as file: save_data = json.loads(await file.read()) save_data.append(save_item) async with aiofiles.open(save_file_name, 'w', encoding='utf-8') as file: await file.write(json.dumps(save_data, ensure_ascii=False))...
 python main.py --platform dy --lt qrcode --type detail
(thor) E:\MediaCrawler-main>python main.py --platform dy --lt qrcode --type search 2024-03-12 22:06:09 MediaCrawler INFO [DouYinCrawler.search] Begin search douyin keywords 2024-03-12 22:06:09 MediaCrawler INFO [DouYinCrawler.search] Current keyword: 心灵抚慰 2024-03-12 22:06:11 httpx INFO...
小红书关键字搜索
博主,你好。怎么配置按照关键字搜索呢。
评论数据爬取失败,是什么问题呢?以下是日志输出内容: MediaCrawler ERROR [WeiboCrawler.get_note_comments] may be been blocked, err:Expecting value: line 1 column