webmagic issues

下载错误的页面可以再重新放回任务队列吗?为什么errorPage统计出的错误页面数一直都没变

1

如题

patience00

pojo如何动态匹配

案例中的是pojo类是写死的，想问下如何实现像泛型那样，动态匹配，而不是写死域名这些。

cyb-start

希望作者可以将doCycleRetry改成protect访问级别

2

希望作者可以将doCycleRetry改成protect访问级别，外部可以重写这个方法改变行为。比如重试三次之后还是失败就没然后了，我想通过改写这个方法做一些通知

hackeryutu

希望作者支持一下动态重试？

3

因为很多网站现在有限流规则，比如一秒钟请求次数超过5次，就返回500错误或者去其他状态码。能不能改下源码，增加一个重试策略，变成像scrapy一样，第一次隔1秒，第二次2秒第三次5秒...这种递增式动态retry

sparrow-ez

循环点击下一页，并设置循环结束条件

我这里现在有个网站，下一页是Ajax请求，没有url，只能通过WebDriver去操作点击 ![Uploading 屏幕截图 2023-12-13 112420.png…]() 我现在想要的是可以自己设置循环的次数，如果没有设置循环的次数默认设置为5（循环点击下一页5次），返回结果。有哪位大佬知道怎么处理吗

adminjohn

如何让多个spider顺序执行

1

如何让多个spider顺序执行，比如spider1执行完毕后，就开始执行spider2，要如何操作。

getideas

请教怎样控制爬虫延时或者暂停？

3

例如我在爬取网站时触发了网站的防护机制，当我判断出网站有进行防护时，我该怎样控制爬虫让它过一段时间再抓取？

Mr-LiuDC

启动时，想将某个参数传到Processor中，但是发现根本获取不到，这个是什么原因？代码如下： `Request request = new Request("https:/www.xxxx.xxxx/xxx"); request.setRequestBody(HttpRequestBody.json("{'id':1}","utf-8")); Spider.create(douyinProcessor).thread(1) .addPipeline(douyinPipeline) .setDownloader(douyinDownloader) .addRequest(request) .runAsync();` 后面代码在Processor中获取，获取不到前面的id值 `Request request = page.getRequest(); String paramJson = new String(request.getRequestBody().getBody()); ` 获取不到前面传的body里边的内容呢，body是空的，用了request.putExtra方式也传不了。

yangjinde

多久支持playwright

694475668

Refactored code for increased optimization.

**Rename method/variable:** This commit focuses on improving the codebase by renaming methods and variables to adhere to better naming conventions. This enhances the code's readability and makes it more maintainable....

Parthgajera056

webmagic
webmagic copied to clipboard

Metadata

下载错误的页面可以再重新放回任务队列吗?为什么errorPage统计出的错误页面数一直都没变

pojo如何动态匹配

希望作者可以将doCycleRetry改成protect访问级别

希望作者支持一下动态重试？

循环点击下一页，并设置循环结束条件

如何让多个spider顺序执行

请教怎样控制爬虫延时或者暂停？

启动时，自定义参数放在Request后面接收不到

多久支持playwright

Refactored code for increased optimization.

← Metadata

Owner

Metadata

webmagic webmagic copied to clipboard

Metadata

← Metadata

Owner

Metadata

webmagic
webmagic copied to clipboard