PlatonAI

Results 89 comments of PlatonAI

The best practice is to create a hyperlink for each task and attach event handlers: ``` val options = session.options(args) val event = options.event.browseEventHandlers // val event = options.event.browseEvent in...

没有在centos上测试过,不过只要java能跑,就应该能跑。 如果你的linux没有装GUI,则可能是因为没有开启headless模式原因导致的。 另外 pulsarR 不需要 chromedriver。 ---原始邮件--- 发件人: ***@***.***> 发送时间: 2023年4月25日(周二) 上午9:28 收件人: ***@***.***>; 抄送: ***@***.***>; 主题: [platonai/exotic] 在centos7上运行 (Issue #14) 请问是否支持在centos7上运行该程序?我这里安装了chrome和chromedriver,但是仍然提示Failed to create chrome devtools driver — Reply to...

A possible solution: https://stackoverflow.com/questions/6939685/get-client-time-zone-from-browser ``` const tz = Intl.DateTimeFormat().resolvedOptions().timeZone; console.log(tz); ``` Outputs: `Asia/Shanghai`

This command works on WSL, so if your system hava WSL, run it on WSL.

如果是个别错误,就不要管它。

Can you run CrawlStarter.kt succesfully? Or can your run mvn succesfully?

> 还有PulsarRPAPro项目,运行TaobaoCrawler.kt也有类似的报错,并且运行不成功 很明显是 Kotlin 版本问题。

使用浏览器模式,对于典型网站譬如 amazon.com,我们的设计预期是单机10万网页/天,参考项目主页介绍。 更多信息和方案: 性能问题取决于对字段的要求。针对各种不同的性能/质量要求,PulsarRPA 以统一的方式,提供了系统性的解决方案。 1. 最快是走原始 HTTP 协议,不通过浏览器渲染,这种方法可以达到单机单日百万,仅当采集目标是单一网络资源的时候适用,譬如静态网页、json 文件或者API。 2. 其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,并且不产生页面交互,不滚动,不悬浮,不点击,网页打开后很快关闭。 3. 其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,产生少量页面交互,少量滚动。 4. 其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,产生一定页面交互,一定滚动,一定其他动作,等待目标字段成功出现。 5. 其次是走浏览器渲染,不屏蔽或者部分屏蔽 CSS,图片等其他资源,产生一定页面交互,一定滚动,一定其他动作,等待目标字段成功出现。 最后,我们需要正确配置系统,来充分利用 CPU 和内存资源。默认配置不是性能优先的,而是用户体验优先的。 值得注意的是,页面级性能和字段级性能不同。在利益攸关的复杂数据需求中,我们往往更需要字段级性能而非页面级性能。譬如,在舆情场景中,一个页面往往只有3个有效字段,而在电商场景中,一个页面包含了100~300个高价值字段。 此外,PulsarRPA 提供了严格的质量控制体系,来确保即使在超大规模情形下,也能够在字段级别,对每一个采集目标进行正确跟踪、评估和校验。

参考教程:[PulsarRPA 系列课程 10 - 大规模采集](https://zhuanlan.zhihu.com/p/576072401)