PulsarRPA
PulsarRPA copied to clipboard
如何使用headless chrome进行采集?
疑问:
- 是否支持linux服务器版进行部署采集?
- 如支持,如何配置chrome?似乎没有找到教程。
谢谢。
支持 linux 服务器版进行部署采集。
浏览器安装:
git clone https://github.com/platonai/pulsar.git
cd pulsar && bin/build-run.sh
浏览器设置:
用 BrowserSettings 设置,譬如:
BrowserSettings.privacy(3).maxTabs(10).headless()
这段代码告诉系统,
- 同时启动3套隐私独立的浏览器,每个浏览器互不干扰
- 每个浏览器最大同时打开10个Tab
- 使用无头模式
@platonai 无头模式爬取 www.temu.com 的数据失败,非无头模式才能访问。请问是否会被检测出无头模式?有没有类似selenium 给谷歌浏览器添加 excludeSwitches 参数的方式来规避检测?