MediaCrawler icon indicating copy to clipboard operation
MediaCrawler copied to clipboard

小红书主页 type=creator时,如何只抓取content

Open ifredom opened this issue 1 year ago • 2 comments

如题,当小红书type为创作者时,默认会抓取3个内容。

  1. BUG: 主页内容只能抓取到30条,从第30条开始都重复了。默认分页是30,我尝试改了一下60,无效。只能30条?
  2. help : 评论 comments太多了,导致一个人的主页会抓取20多分钟......不要评论,启动参数应该怎么样设置跳过comments呢?

image

image

启动参数,修改config这2个值后启动: python main.py

image

ifredom avatar Mar 15 '24 12:03 ifredom

这个模式有bug,这周末修复

NanmiCoder avatar Mar 15 '24 14:03 NanmiCoder

看到新增跳过了comments配置。运行 python main,py出现新bug,

使用 CRAWLER_TYPE = "creator" 获取创作者 62b450a30000000015016cc5 的主页内容

配置文件改动如下:


CRAWLER_TYPE = "creator"

# 指定小红书创作者ID列表
XHS_CREATOR_ID_LIST = [
    "62b450a30000000015016cc5",
    # ........................
]

image

ifredom avatar Mar 16 '24 18:03 ifredom

已修复该问题

NanmiCoder avatar Mar 17 '24 06:03 NanmiCoder