webmagic icon indicating copy to clipboard operation
webmagic copied to clipboard

超链接相对路径导致的重定向页面获取到错误的link,并且无限循环

Open lvxin86 opened this issue 4 years ago • 1 comments

比如抓取url_a重定向到了url_b,在最终的页面如果有的超链接写的是相对路径,比如c?k=v,那么在做超链接填充的时候取得是request中的url_a拼上相对路径为url_a/c?k=v,但这个link是错误的,正确的应该是url_b/c?k=v。目前这个问题导致的问题是link无限叠加扩充

这种情况确实可能存在,目前url是根据redirect之前的地址来做判断和去重的,能不能给个例子?

http://www.legalinfo.gov.cn/ 这个地址在获取首页里面的js时候就会出现以上的问题

Originally posted by @code4craft in https://github.com/code4craft/webmagic/issues/479#issuecomment-285834984

lvxin86 avatar Feb 20 '21 07:02 lvxin86

这个问题,你自己判断一下 href等属性值是不是以http或者https开头不就好了。

ruby-ya avatar Jan 01 '22 15:01 ruby-ya