webmagic
webmagic copied to clipboard
超链接相对路径导致的重定向页面获取到错误的link,并且无限循环
比如抓取url_a重定向到了url_b,在最终的页面如果有的超链接写的是相对路径,比如c?k=v,那么在做超链接填充的时候取得是request中的url_a拼上相对路径为url_a/c?k=v,但这个link是错误的,正确的应该是url_b/c?k=v。目前这个问题导致的问题是link无限叠加扩充
这种情况确实可能存在,目前url是根据redirect之前的地址来做判断和去重的,能不能给个例子?
http://www.legalinfo.gov.cn/ 这个地址在获取首页里面的js时候就会出现以上的问题
Originally posted by @code4craft in https://github.com/code4craft/webmagic/issues/479#issuecomment-285834984
这个问题,你自己判断一下 href等属性值是不是以http或者https开头不就好了。