Results 8 issues of ws

请问是否支持在centos7上运行该程序?我这里安装了chrome和chromedriver,但是仍然提示Failed to create chrome devtools driver

wontfix

https://www.woolworths.co.za/prod/Women/New-In/Knitwear/Woolworths-Cashmere-Jumper/A-507948144?isFromPLP=true https://superbalist.com/women/beauty/nutricosmetics/glow-from-within-single-serving-sachets-10g/1016223?clickRef=catalogue https://superbalist.com/women/beauty/nutricosmetics/glow-from-within-pure-hydrolyzed-collagen-250g/925744?clickRef=catalogue 不知道为什么,这些url在爬取时会报no url found,但是别的url不会

现在我这边使用到的主要是ip代理以及浏览器登录状态的使用。 但是这和实际的隐私上下文轮换还是有差别吧? 想问下有没有切换浏览器信息的方式。

在爬取两个小时后报Driver pool is exhausted numRunning: 0, availableMemory: 452.54 MiB, memoryToReserve: 1.00 GiB, shortage: -599216128 B 这个是如何释放的?有手动释放的方法吗

你好,关于以上问题,我在范例里面看到可以通过设置系统参数 System.setProperty( DefaultWebSocketContainerFactory.WEBSOCKET_INCOMING_BUFFER_PROPERTY, Long.toString((long) DefaultWebSocketContainerFactory.MB * 24)); 来解决,但是我在代码里设置后,还是不能正常转化我需要爬取的网页。 1.请问我是否要像范例里一样,对page.onLoadEventFired进行重写? 2.请问这个Web socket的默认超时时间是多久?可以重新设置吗?

你好,关于extract-config中各爬取任务父子级的关系,不知道是不是可以大概讲下。 我这边调整“列表页”-“商品详情页”以及“商品评论”的父子孙级关系后, 发现无论是否有父子级关系,AmazonJdbcSinkSQLExtractor.isRelevant都会重复创建多次对目标url进行判断,但是在有父子级关系的时候,反而会漏掉部分url。不会使用孙级的判断来对url进行匹配。

你好,今天运行代码,发现之前可运行的代码现在都报了Failed to create chrome devtools driver 这个错误,程序无法启动chrome进行拉取,以下为日志记录 `21:49:40.923 [r-worker-2] WARN a.p.p.p.b.e.context.WebDriverContext - 3. Retry task 1 in crawl scope | caused by: [Unexpected] Failed to create chrome devtools driver 21:49:41.057...

Hi, I've set up jdbcommitter as required, and commented out the code in the configuration to load mongodb by default, but the default mode remains once the service is started

good first issue
wontfix