UrlCrawler icon indicating copy to clipboard operation
UrlCrawler copied to clipboard

抓取的不行,很多站外链接,并且不全

Open li497558599 opened this issue 6 years ago • 2 comments

应该是顶级域名相关的问题,如果楼主要更改,可以提供域名

li497558599 avatar Nov 15 '18 09:11 li497558599

这里只过滤了其他顶级域名,未过滤二级三级域名,具体可见参数key的作用。 不全是因为这里只设置爬取深度为3,可修改depth参数。

saucer-man avatar Nov 15 '18 11:11 saucer-man

说一下我的域名吧 https://zhongji.gaodun.cn/ 因为这个网站上存在有https://www.gaodun.com/zhongji/ 因此也抓取了这个网站上很多链接,应该是程序判断主域相同所导致的?楼主可测试一下

li497558599 avatar Nov 16 '18 01:11 li497558599