webmagic issues

关于xpath方式抽取元素

2

jsoup中有一个selectFirst方法，匹配成功一次就结束了，相比于select要做全文档匹配会好不少。 webmagic项目引用的xsoup中的jsoup版本是1.8.3，这个版本的jsoup还没有selectFirst方法。我主要看了下xpath方式，最后调用的org.jsoup.select.NodeTraversor#traverse，所以每次都要全文档匹配。如果不修改xsoup，我能想到的方式是：直接调用 XPathEvaluator compile = Xsoup.compile("//div"); 通过反射获取compile中的evaluator属性，然后调用 ` Collector.findFirst(evaluator , page.getHtml().getDocument().root()); ` 所以是否能为webmagic加上selectFirst方法。

GG22G2

想做一个管理后台，可以控制爬虫的开启与关闭

2

想做一个管理后台，可以控制爬虫的开启与关闭，这种一般要怎么实现，还请大神给个思路

ideaviewes

Add crawl with script with chromedriver in windows.

In webmagic-selenium project. 1. Add test code using chromedriver in windows. 2. Add test code using javascript with chromedriver.It is good practice to save time.

lxiaodao

我按照官方文档的代理方式，配置代理后。以多个线程启动爬虫，总是会出现ssl异常javax.net.ssl.SSLException: Received fatal alert: internal_error。单个线程不会

3

aya-momo

使用 RedisPriorityScheduler 队列会丢失 Request 中除了extras 属性外的所有自定义信息

RedisPriorityScheduler 类实现的 pushWhenNoDuplicate() 方法在处理 request 中的附加信息的时候，只检查了 extra 属性，如果 extra 属性为空，request 中其他的属性如 header、method、cookie 等都不会被保存。如下图：

aizhimou

请教大神，frame页面怎么抓取，我使用了selenium好像还是不行

1

nashitongku

在使用webmagic-selenium时，添加cookie无效，设置post请求无效

1

Site site = Site.me().setDomain("xxx.xxx.com").addCookie("xxx", "xxx"); Request request=new Request("https://xxx.xxx.com/xxx"); request.setMethod(HttpConstant.Method.POST); request.setRequestBody(HttpRequestBody.json("{\"aaa\": \"xxx\", \"bbb\": \"yyy\"}", "UTF-8")); 代码如上，成功启动chrome，但请求没有携带cookie，且请求方法为get。

13639101200

Webcaixa

gilihamu

在HashSetDuplicateRemover这个类里，如果先对url做一个md5的hash，再保存到hashset里去重，是不是能节省很多内存？

1

在HashSetDuplicateRemover这个类里，如果先对url做一个md5的hash，再保存到hashset里去重，是不是能节省很多内存？可以考虑下

yuweiming2016

Atomicity Violation

Hello! I just wanted to let you know there's a possible bug here that allows more `threadAlive.get()` to become greater than `threadNum`. For example, if `threadAlive.get() == threadNum - 1`...

benSepanski

webmagic
webmagic copied to clipboard

Metadata

关于xpath方式抽取元素

想做一个管理后台，可以控制爬虫的开启与关闭

Add crawl with script with chromedriver in windows.

我按照官方文档的代理方式，配置代理后。以多个线程启动爬虫，总是会出现ssl异常javax.net.ssl.SSLException: Received fatal alert: internal_error。单个线程不会

使用 RedisPriorityScheduler 队列会丢失 Request 中除了extras 属性外的所有自定义信息

请教大神，frame页面怎么抓取，我使用了selenium好像还是不行

在使用webmagic-selenium时，添加cookie无效，设置post请求无效

Webcaixa

在HashSetDuplicateRemover这个类里，如果先对url做一个md5的hash，再保存到hashset里去重，是不是能节省很多内存？

Atomicity Violation

← Metadata

Owner

Metadata

webmagic webmagic copied to clipboard

Metadata

← Metadata

Owner

Metadata

webmagic
webmagic copied to clipboard