webmagic icon indicating copy to clipboard operation
webmagic copied to clipboard

A scalable web crawler framework for Java.

Results 147 webmagic issues
Sort by recently updated
recently updated
newest added

请问,这是 org.slf4j exclude 导致的? 要怎么处理?

这是我设置cookie的地方,应该没问题的。 开始请求接口 浏览器自动打开然后请求我放入的url,如图所示: ![image](https://user-images.githubusercontent.com/73567271/164422473-c033aca9-14cc-48cb-a621-20ec93c6e85d.png) 根本进不去,如图所示: ![image](https://user-images.githubusercontent.com/73567271/164422819-823afbca-5a88-4e5e-a0a2-1e1f32f82fb4.png) 然后我手动刷新一下: ![image](https://user-images.githubusercontent.com/73567271/164422764-0f07d1b5-4e86-4d73-94b3-354f3d30ed3e.png) 这是什么情况啊???很着急 !在线等!!!

如何 模拟点击事件 抓包

新版`ProxyProvider`只有一个默认实现`SimpleProxyProvider `,主要是作者考虑到实现一个复杂版本,第一不一定能完全理解需求,另外实现也没有经过检验,所以就抛砖引玉,先写一个简单可用的版本。 如果有更复杂的场景,欢迎回复此issue。

major
toTest

用了框架寫了個簡單程式,有些網站能抓,有些網站出現timeout,想請問這個可能是哪方面的問題,看了許久,找不出問題。 目前抓取的網站是: https://www.arrow.com/en/categories/diodes-transistors-and-thyristors/bipolar-transistors/rf-bjt?page=1 代碼如下: public class ArrowPageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000).addHeader("user-agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.83 Safari/537.36"); @Override public void...

在Spider启动后,调用Spider.stop方法一直报空指针异常

![image](https://user-images.githubusercontent.com/29362027/152106691-80864f3c-f504-4b9e-9bb3-159c504d455d.png) 如图 点击不同tab 渲染出不同的内容,如何让爬虫爬取默认点击tab后 继续点击其他tab 并获取内容! 求解

![image](https://user-images.githubusercontent.com/19649678/158509008-ff0b161f-6ae8-4f26-b28e-cc528a44d800.png) ![image](https://user-images.githubusercontent.com/19649678/158509038-597531f3-59a4-4d9e-9361-131d800d65e9.png)

样例链接:https://chejiahao.autohome.com.cn/info/10349473#pvareaid=6826274 获取文章内容xpath:/html/body/div[4]/div[2]/div[1]/div[3]/div/div[1]/div[1] 通过page.getHtml()查看某一图片链接: ` ` 实际图片链接地址: `` 推测是因为图片链接中有`|`导致被截取,望修复