PulsarRPA icon indicating copy to clipboard operation
PulsarRPA copied to clipboard

如何使用headless chrome进行采集?

Open Vickzhang opened this issue 2 years ago • 2 comments

疑问:

  • 是否支持linux服务器版进行部署采集?
  • 如支持,如何配置chrome?似乎没有找到教程。

谢谢。

Vickzhang avatar Feb 02 '23 05:02 Vickzhang

支持 linux 服务器版进行部署采集。

浏览器安装:

git clone https://github.com/platonai/pulsar.git
cd pulsar && bin/build-run.sh

浏览器设置:

用 BrowserSettings 设置,譬如:

BrowserSettings.privacy(3).maxTabs(10).headless()

这段代码告诉系统,

  1. 同时启动3套隐私独立的浏览器,每个浏览器互不干扰
  2. 每个浏览器最大同时打开10个Tab
  3. 使用无头模式

中文教程 代码示例

platonai avatar Feb 04 '23 13:02 platonai

@platonai 无头模式爬取 www.temu.com 的数据失败,非无头模式才能访问。请问是否会被检测出无头模式?有没有类似selenium 给谷歌浏览器添加 excludeSwitches 参数的方式来规避检测?

ScalaFirst avatar Apr 14 '23 10:04 ScalaFirst