Yihua Huang
Yihua Huang
`CustomRedirectStrategy`可能有问题,能否给个出错的测试地址?
这种情况确实可能存在,目前url是根据redirect之前的地址来做判断和去重的,能不能给个例子?
HttpClient会自动follow 跳转,抓取到的数据会是跳转后的。你只是要获取URL么?
请问下你是不是用了其他版本的JsonPath? WebMagic用的JsonPath版本比较老(`0.8.1`),可以用`mvn dependency:tree`看一下依赖版本。我这边测试是没问题的。
2.2.0版本目前是不支持的,它有些行为跟之前设想的不一样…建议换到0.8.1试一下。
是说Proxy这部分没有设置认证信息吗?这里是有设置的: ```java HttpClientContext httpContext = new HttpClientContext(); if (proxy != null && proxy.getUsername() != null) { AuthState authState = new AuthState(); authState.update(new BasicScheme(), new UsernamePasswordCredentials(proxy.getUsername(), proxy.getPassword())); httpContext.setAttribute(HttpClientContext.PROXY_AUTH_STATE, authState); } ```...
抓包看了下,有设置`Authorization: Basic dXNlcjpwYXNz`,应该是设置进去了。 不过不知道代理到底是不是识别这个字段,有用过认证代理的同学可以试用一下。
有道理,我会考虑一下。
应该没有什么重叠的吧~
sleepTime的作用,两位都没说错。至于跟多线程如何配合,其实原因是:有sleepTime的时候,还没有多线程呢… 但是如果多个Spider共享线程池,那么在这里sleep不是太合理。考虑改进一下。