UrlCrawler 抓取的不行，很多站外链接，并且不全

抓取的不行，很多站外链接，并且不全

Open li497558599 opened this issue 6 years ago • 2 comments

应该是顶级域名相关的问题，如果楼主要更改，可以提供域名

Nov 15 '18 09:11 li497558599

这里只过滤了其他顶级域名，未过滤二级三级域名，具体可见参数key的作用。不全是因为这里只设置爬取深度为3，可修改depth参数。

Nov 15 '18 11:11 saucer-man

说一下我的域名吧 https://zhongji.gaodun.cn/ 因为这个网站上存在有https://www.gaodun.com/zhongji/ 因此也抓取了这个网站上很多链接，应该是程序判断主域相同所导致的？楼主可测试一下

Nov 16 '18 01:11 li497558599