PlatonAI comments

Results 89 comments of


                                            PlatonAI

单机每天能处理多少页面请求，需要做关键字下asin采集，单机内存32G，日采集能达到100万级别吗？

> 加入-resource全都是503 很明显如果单一资源模式能解决所有问题，我们就没有必要开发浏览器模式和RPA模式了。参见：https://www.zhihu.com/answer/2738050570

单机每天能处理多少页面请求，需要做关键字下asin采集，单机内存32G，日采集能达到100万级别吗？

> 这个宣传语有点...，要达到这个结果要大量的代理IP，要使用HTTP抓取，这都满足才可能达到百万级，就目前这份代码用了代理IP，在mac 16G内存电脑，采集了5个小时，大概是1000多页， 1. 大批量数据采集是离不开代理IP的。由于每一个请求都和真人无异，PulsarRPA 已最大限度降低了 IP 使用量。 2. 使用浏览器模式单机采集百万网页是不现实的，对于典型网站譬如 amazon.com，我们的设计预期是单机10万/天，参考项目主页介绍。 3. 采集性能和数据需求息息相关，参看上面【性能问题取决于对字段的要求】的回复。 4. 如您需要每天百万量级网页数据，我们非常乐意提供一切技术支持，您可以加我微信 galaxyeye，非常感谢。

如何切换城市

通常在 onBrowserLaunched 事件中执行切换城市。PageEvent.BrowseEvent.onBrowserLaunched() 在一个全新的浏览器（独立隐私上下文）打开后调用。

Mac上配置时出现这个问题，可以指点一下吗

解决方案：https://github.com/platonai/exotic-amazon#%E5%BC%80%E5%A7%8B

Mac上配置时出现这个问题，可以指点一下吗

试试删掉第一个 mirror 配置，仅保留第二个，也就是仅保留 readme 里要求的。 ![image](https://user-images.githubusercontent.com/37785921/235293592-5ecc9b70-c02a-4b08-a727-dcb1e577e10d.png)

关于extract-config

当采集一个网页时，所有已注册的 AmazonJdbcSinkSQLExtractor.isRelevant 都会被调用来判断是否需要由该 extractor 进行后续处理，这很清晰。 AmazonJdbcSinkSQLExtractor 的层次结构用于同一个网页注册多个 Extractor，执行多个 X-SQL，譬如详情页主体部分一个 SQL，详情页中的评论由另一个SQL提取。

Failed to create chrome devtools driver

如果是偶尔出现，是正常情况，重新采集即可，系统提供了默认的重试机制。如果所有链接都失败，所有 chrome 都创建失败，才说明有 bug。

Failed to create chrome devtools driver

不知道报错的是哪个版本，之前的版本也的确有不支持 chrome 111+ 的情况。前面有 issue 跟踪这个问题，并在 pulsar-1.10.11, exotic-amazon-main 中修复了。相关 issue: https://github.com/platonai/exotic-amazon/issues/14

一起学习

1. Pull 最新版本 2. 解析下载后的页面内容并保存：ai.platon.exotic.amazon.crawl.boot.component.common.AbstractSQLExtractor#extract 3. 单独爬取一两个页面的最小例子：[AsinScraper](https://github.com/platonai/exotic-amazon/blob/f696e13989bfd6ceca55fa51445867c673fe8b29/src/main/kotlin/ai/platon/exotic/amazon/tools/scrapers/AsinScraper.kt)

The program is stuck on the dubug message

It means that all tasks have been completed.