Ton Zo comments

Repositories
Issues
Comments

Results 1 comments of


                                            Ton Zo

请问first_name.txt和disease.txt在哪

> 【以下纯属个人看法】作者的first_name.txt所形成的的stop_words貌似是因为在提取症状的时候会把医生名字一起提取出来，因为它们的标签一样的：class="gre"，所以作者可能是为了去掉医生的名字。但可以直接将data_spider.py中爬取症状信息的这一行直接改成：symptoms = selector.xpath('//span[@Class="db f12 lh240 mb15 "]/a/text()')，那在build_data.py中就无需stop_words，自然也就不需要知道first_name.txt是什么了。 > 【我按照这个思路已经验证成功了】您好，我想请教一下“prepare_data”文件夹下的几个文件是如何使用的呢？我想从头开始生成medical.json，谢谢！