webmagic icon indicating copy to clipboard operation
webmagic copied to clipboard

A scalable web crawler framework for Java.

Results 147 webmagic issues
Sort by recently updated
recently updated
newest added

案例中的是pojo类是写死的,想问下如何实现像泛型那样,动态匹配,而不是写死域名这些。

希望作者可以将doCycleRetry改成protect访问级别,外部可以重写这个方法改变行为。 比如重试三次之后还是失败就没然后了, 我想通过改写这个方法做一些通知

因为很多网站现在有限流规则,比如一秒钟请求次数超过5次,就返回500错误或者去其他状态码。能不能改下源码,增加一个重试策略,变成像scrapy一样,第一次隔1秒,第二次2秒第三次5秒...这种递增式动态retry

我这里现在有个网站,下一页是Ajax请求,没有url,只能通过WebDriver去操作点击 ![Uploading 屏幕截图 2023-12-13 112420.png…]() 我现在想要的是可以自己设置循环的次数,如果没有设置循环的次数默认设置为5(循环点击下一页5次),返回结果。 有哪位大佬知道怎么处理吗

如何让多个spider顺序执行,比如spider1执行完毕后,就开始执行spider2,要如何操作。

例如我在爬取网站时触发了网站的防护机制,当我判断出网站有进行防护时,我该怎样控制爬虫让它过一段时间再抓取?

启动时,想将某个参数传到Processor中,但是发现根本获取不到,这个是什么原因?代码如下: `Request request = new Request("https:/www.xxxx.xxxx/xxx"); request.setRequestBody(HttpRequestBody.json("{'id':1}","utf-8")); Spider.create(douyinProcessor).thread(1) .addPipeline(douyinPipeline) .setDownloader(douyinDownloader) .addRequest(request) .runAsync();` 后面代码在Processor中获取,获取不到前面的id值 `Request request = page.getRequest(); String paramJson = new String(request.getRequestBody().getBody()); ` 获取不到前面传的body里边的内容呢,body是空的,用了request.putExtra方式也传不了。

**Rename method/variable:** This commit focuses on improving the codebase by renaming methods and variables to adhere to better naming conventions. This enhances the code's readability and makes it more maintainable....