webmagic icon indicating copy to clipboard operation
webmagic copied to clipboard

超链接相对路径导致的重定向页面获取到错误的link

Open hoyoung2015 opened this issue 7 years ago • 2 comments

比如抓取url_a重定向到了url_b,在最终的页面如果有的超链接写的是相对路径,比如c?k=v,那么在做超链接填充的时候取得是request中的url_a拼上相对路径为url_a/c?k=v,但这个link是错误的,正确的应该是url_b/c?k=v。目前这个问题导致的问题是link无限叠加扩充,比如限定站点全站抓取根本就抓不完。

hoyoung2015 avatar Mar 07 '17 06:03 hoyoung2015

这种情况确实可能存在,目前url是根据redirect之前的地址来做判断和去重的,能不能给个例子?

code4craft avatar Mar 11 '17 02:03 code4craft

这种情况确实可能存在,目前url是根据redirect之前的地址来做判断和去重的,能不能给个例子?

http://www.legalinfo.gov.cn/ 这个地址在获取里面的js时候就会出现上面的问题

lvxin86 avatar Feb 20 '21 07:02 lvxin86