MediaCrawler icon indicating copy to clipboard operation
MediaCrawler copied to clipboard

[问题] 爬取失败

Open wafaefacafa opened this issue 4 months ago • 11 comments

⚠️ 提交前确认

  • [x] 我已经仔细阅读了项目使用过程中的常见问题汇总
  • [x] 我已经搜索并查看了已关闭的issues
  • [ ] 我确认这不是由于滑块验证码、Cookie过期、Cookie提取错误、平台风控等常见原因导致的问题

❓ 问题描述

标准模式在最低限制下触发xhs安全机制,cdp静默模式扫码登录爬取成功但本地没有data文件夹,cdp关闭静默模式浏览器扫码登录但显示浏览器请求超时。

🔍 使用场景

关键词搜索
  • 目标平台: (如:小红书/抖音/微博等) xhs
  • 使用功能: (如:关键词搜索/用户主页爬取等) 关键词搜索

💻 环境信息

  • 操作系统: win11
  • Python版本: 3.13.5
  • 是否使用IP代理: 否
  • 是否使用VPN翻墙软件:否
  • 目标平台(抖音/小红书/微博等):小红书

📋 错误日志

在此粘贴完整的错误日志

📷 错误截图

wafaefacafa avatar Aug 09 '25 09:08 wafaefacafa

贴出相关配置以及运行日志

NanmiCoder avatar Aug 12 '25 08:08 NanmiCoder

Image Image Image

wafaefacafa avatar Aug 12 '25 08:08 wafaefacafa

看错误日志是没有找到xhs登录二维码的容器,删除项目下browser_data,然后使用CDP再试试看看

NanmiCoder avatar Aug 12 '25 08:08 NanmiCoder

Image Image

wafaefacafa avatar Aug 12 '25 08:08 wafaefacafa

它一直说没有权限访问,问题是我就一段时间没运行。xhs账号还是活跃的

wafaefacafa avatar Aug 12 '25 08:08 wafaefacafa

看看你的浏览器页面上显示啥了,风控问题,我用我自己的账号测试没有发现这个问题

NanmiCoder avatar Aug 12 '25 08:08 NanmiCoder

完成扫码什么都没显示正常跳转。

wafaefacafa avatar Aug 12 '25 08:08 wafaefacafa

还有个问题cookie正确且没过期,没法登录显示没有权限。

wafaefacafa avatar Aug 12 '25 11:08 wafaefacafa

你的代码是仓库源代码吗? 是最新的吗?怎么看你的输出日志和配置文件跟目前仓库的不一致?

NanmiCoder avatar Aug 12 '25 11:08 NanmiCoder

是最新的没错

wafaefacafa avatar Aug 12 '25 11:08 wafaefacafa

从你提供的日志截图看,跟仓库的代码并非一致性,不知道你是修改了哪里。

Image

目前仓库中的xhs登录代码中没有上述截图的日志,具体对比代码 https://github.com/NanmiCoder/MediaCrawler/blob/main/media_platform/xhs/login.py

另外本地win + mac均已测试登录成功,过程中没有发下你的问题,你的问题根据目前已知的就是没有定位到登录对话框的元素。

通常的解决方案是删除本地项目下的浏览器缓存清掉,若还是不行,那有可能本地网络或者账号账号问题,这类风控问题,目前处理不了。请自行等待时间解决。

(mediacrawler) ➜  MediaCrawler git:(main) python main.py
2025-08-12 19:45:50 MediaCrawler INFO (core.py:74) - [XiaoHongShuCrawler] 使用标准模式启动浏览器
2025-08-12 19:45:50 MediaCrawler INFO (core.py:363) - [XiaoHongShuCrawler.launch_browser] Begin create browser context ...
2025-08-12 19:45:55 MediaCrawler INFO (core.py:328) - [XiaoHongShuCrawler.create_xhs_client] Begin create xiaohongshu API client ...
2025-08-12 19:45:55 MediaCrawler INFO (client.py:174) - [XiaoHongShuClient.pong] Begin to pong xhs...
2025-08-12 19:45:56 httpx INFO (_client.py:1740) - HTTP Request: POST https://edith.xiaohongshu.com/api/sns/web/v1/search/notes "HTTP/1.1 200 OK"
2025-08-12 19:45:57 httpx INFO (_client.py:1740) - HTTP Request: POST https://edith.xiaohongshu.com/api/sns/web/v1/search/notes "HTTP/1.1 200 OK"
2025-08-12 19:45:58 httpx INFO (_client.py:1740) - HTTP Request: POST https://edith.xiaohongshu.com/api/sns/web/v1/search/notes "HTTP/1.1 200 OK"
2025-08-12 19:45:58 MediaCrawler ERROR (client.py:181) - [XiaoHongShuClient.pong] Ping xhs failed: RetryError[<Future at 0x12a9c8f10 state=finished raised DataFetchError>], and try to login again...
2025-08-12 19:45:58 MediaCrawler INFO (login.py:62) - [XiaoHongShuLogin.begin] Begin login xiaohongshu ...
2025-08-12 19:45:58 MediaCrawler INFO (login.py:142) - [XiaoHongShuLogin.login_by_qrcode] Begin login xiaohongshu by qrcode ...
2025-08-12 19:45:58 MediaCrawler INFO (login.py:175) - [XiaoHongShuLogin.login_by_qrcode] waiting for scan code login, remaining time is 120s
2025-08-12 19:46:22 MediaCrawler INFO (login.py:183) - [XiaoHongShuLogin.login_by_qrcode] Login successful then wait for 5 seconds redirect ...
2025-08-12 19:46:27 MediaCrawler INFO (core.py:118) - [XiaoHongShuCrawler.search] Begin search xiaohongshu keywords
2025-08-12 19:46:27 MediaCrawler INFO (core.py:125) - [XiaoHongShuCrawler.search] Current search keyword: 编程副业
2025-08-12 19:46:27 MediaCrawler INFO (core.py:135) - [XiaoHongShuCrawler.search] search xhs keyword: 编程副业, page: 1
2025-08-12 19:46:27 httpx INFO (_client.py:1740) - HTTP Request: POST https://edith.xiaohongshu.com/api/sns/web/v1/search/notes "HTTP/1.1 200 OK"
2025-08-12 19:46:27 MediaCrawler INFO (core.py:144) - [XiaoHongShuCrawler.search] Search notes res:{'has_more': True, 'items': [{'note_card': {'type': 'video', 'display_title': '副业搞钱🌈Python 编程,赚足生活费', 'user': {'nick_name': '34岁黄毛丫头', 'avatar': 'https://snn.com/avatar/62158b55b12f9b27a35819ca.jpg?imageView2/2/w/80/format/jpg', 'user_id': '5cf0a936000000001802830a', 'nickname': '34岁黄毛丫头', 'xsec_token': 'ABeUp8DLEGzMS9h2lTGar2l_K648wxJCOMq072grZRvk0='}, 'interact_info': {'liked_count': '4916', 'collected': False, 'collecount': '6558', 'comment_count': '113', 'shared_count': '684', 'liked': False}, 'cover': {'height': 1280, 'width': 960}, 'image_list': [{'height': 1280, 'width': 960}], 'corner_tag_info': [{'type': 'publish_time', 'text': '2022-01-13'}]}, 'xsec_token': 'ABx98D13nysL0J_Q1sFYCSLnK681DblbwzEphktD2BQZM=', 'id': '61dff80400000000210371e5', 'model_type': 'note'}, {'id': '65afc71b000000000c0072a0', 'model_type': 'note', 'note

NanmiCoder avatar Aug 12 '25 11:08 NanmiCoder