PlatonAI

Results 89 comments of PlatonAI

> 加入-resource全都是503 很明显如果单一资源模式能解决所有问题,我们就没有必要开发浏览器模式和RPA模式了。 参见:https://www.zhihu.com/answer/2738050570

> 这个宣传语有点...,要达到这个结果要大量的代理IP,要使用HTTP抓取,这都满足才可能达到百万级,就目前这份代码用了代理IP,在mac 16G内存电脑,采集了5个小时,大概是1000多页, 1. 大批量数据采集是离不开代理IP的。由于每一个请求都和真人无异,PulsarRPA 已最大限度降低了 IP 使用量。 2. 使用浏览器模式单机采集百万网页是不现实的,对于典型网站譬如 amazon.com,我们的设计预期是单机10万/天,参考项目主页介绍。 3. 采集性能和数据需求息息相关,参看上面【性能问题取决于对字段的要求】的回复。 4. 如您需要每天百万量级网页数据,我们非常乐意提供一切技术支持,您可以加我微信 galaxyeye,非常感谢。

通常在 onBrowserLaunched 事件中执行切换城市。PageEvent.BrowseEvent.onBrowserLaunched() 在一个全新的浏览器(独立隐私上下文)打开后调用。

解决方案:https://github.com/platonai/exotic-amazon#%E5%BC%80%E5%A7%8B

试试删掉第一个 mirror 配置,仅保留第二个,也就是仅保留 readme 里要求的。 ![image](https://user-images.githubusercontent.com/37785921/235293592-5ecc9b70-c02a-4b08-a727-dcb1e577e10d.png)

当采集一个网页时,所有已注册的 AmazonJdbcSinkSQLExtractor.isRelevant 都会被调用来判断是否需要由该 extractor 进行后续处理,这很清晰。 AmazonJdbcSinkSQLExtractor 的层次结构用于同一个网页注册多个 Extractor,执行多个 X-SQL,譬如详情页主体部分一个 SQL,详情页中的评论由另一个SQL提取。

如果是偶尔出现,是正常情况,重新采集即可,系统提供了默认的重试机制。 如果所有链接都失败,所有 chrome 都创建失败,才说明有 bug。

不知道报错的是哪个版本,之前的版本也的确有不支持 chrome 111+ 的情况。前面有 issue 跟踪这个问题,并在 pulsar-1.10.11, exotic-amazon-main 中修复了。 相关 issue: https://github.com/platonai/exotic-amazon/issues/14

1. Pull 最新版本 2. 解析下载后的页面内容并保存:ai.platon.exotic.amazon.crawl.boot.component.common.AbstractSQLExtractor#extract 3. 单独爬取一两个页面的最小例子:[AsinScraper](https://github.com/platonai/exotic-amazon/blob/f696e13989bfd6ceca55fa51445867c673fe8b29/src/main/kotlin/ai/platon/exotic/amazon/tools/scrapers/AsinScraper.kt)

It means that all tasks have been completed.