UrlCrawler
UrlCrawler copied to clipboard
抓取的不行,很多站外链接,并且不全
应该是顶级域名相关的问题,如果楼主要更改,可以提供域名
这里只过滤了其他顶级域名,未过滤二级三级域名,具体可见参数key的作用。 不全是因为这里只设置爬取深度为3,可修改depth参数。
说一下我的域名吧 https://zhongji.gaodun.cn/ 因为这个网站上存在有https://www.gaodun.com/zhongji/ 因此也抓取了这个网站上很多链接,应该是程序判断主域相同所导致的?楼主可测试一下