WEB_KG icon indicating copy to clipboard operation
WEB_KG copied to clipboard

关于初始化

Open WangDongWei515 opened this issue 4 years ago • 3 comments

请问下如果想把之前得到的数据都删了,重新跑自己需要的数据,是把data里的数据都删了就好了吗? 还有想请问下如果只是爬自己感兴趣的目标集的话
items = set(response.xpath( '//a[contains(@href, "/item/")]/@href').re(r'/item/[A-Za-z0-9%\u4E00-\u9FA5]+')) for item in items: new_url = 'https://baike.baidu.com'+urllib.parse.unquote(item) new_item_name = re.sub( '/', '', re.sub('https://baike.baidu.com/item/', '', new_url)) if new_item_name not in self.olds: yield response.follow(new_url, callback=self.parse) 把这里直接注释掉,然后在网址那里改成自己需要的就行了吗?

WangDongWei515 avatar Jul 12 '20 13:07 WangDongWei515

第一个问题,是的。 第二个问题,不是很理解你要做什么,不过值爬你需要的词条只需要修改yield语句,只产生你感兴趣的链接就行了。

lixiang0 avatar Jul 13 '20 15:07 lixiang0

第一个问题,是的。 第二个问题,不是很理解你要做什么,不过值爬你需要的词条只需要修改yield语句,只产生你感兴趣的链接就行了。

已经修改好了,十分感谢!

WangDongWei515 avatar Jul 14 '20 00:07 WangDongWei515

第一个问题,是的。 第二个问题,不是很理解你要做什么,不过值爬你需要的词条只需要修改yield语句,只产生你感兴趣的链接就行了。

已经修改好了,十分感谢!

怎么修改的,大佬请赐教,我这个只能爬取中文名,其他的关系无法爬取,我是在Windows上运行的

zihao-miao avatar Sep 09 '20 15:09 zihao-miao