crawlergo icon indicating copy to clipboard operation
crawlergo copied to clipboard

fix Relative path cannot be resolved.

Open wrenchonline opened this issue 2 years ago • 2 comments

爬取网站的时候有一些路径比如 <a href=/cn/abbout ....>,这种相对路径的链接会在函数model.GetUrl解析失败照成漏抓,影响还是挺大的 ,和awvs对比的话。但这个可能需要更多的测试。

wrenchonline avatar Jul 07 '22 12:07 wrenchonline

抱歉,我没有看懂这个PR是为了解决什么问题,相对路径无法正确拼接成完整URL吗?还是什么

Qianlitp avatar Jul 08 '22 02:07 Qianlitp

抱歉,我没有看懂这个PR是为了解决什么问题,相对路径无法正确拼接成完整URL吗?还是什么

是的,具体在collectHrefLinks函数中收集链接拼接造成url不完整,它并没有点击事件来补偿这一操作。我貌似想到其他情况的拼接问题,如<a href=../cn/abbout ....> 等.这个PR需要更多的改进与测试.

wrenchonline avatar Jul 08 '22 02:07 wrenchonline