WEB_KG
WEB_KG copied to clipboard
爬取百度百科中文页面,抽取三元组信息,构建中文知识图谱
pymongo.errors.ServerSelectionTimeoutError: 127.0.0.1:27017: [WinError 10061] 由于目标计算机积极拒绝,无法连接
抽取百科别的内容
您好,我成功运行了您的项目,这是一个非常棒的项目。 不过爬取的大多数内容都是人物,请问在什么地方进行修改能够爬取别的内容呢?
### 成功运行流程及效果图 1.启动MongoDB服务 2.启动neo4j服务 3.浏览器上访问 http://localhost:7474/ 显示以下的界面: 用户名和密码与代码中保持一致:**auth=("neo4j", "123")** 4.启动Pycharm,在终端中输入运行命令,开始运行 注:虽然还是有Warning,但是目前还未影响程序运行。 5.最终效果图,neo4j知识图谱会根据抽取的结果动态更新 注:生成的知识图谱还是有点奇怪,这需要我后续深入研究。 ### Win10环境配置 前言:所有需要在Windows上的包我都上传到百度网盘上了,有需要的直接下载。 **链接:https://pan.baidu.com/s/1buizBSSuT4wIgPUFtUQW9g 提取码:jay1** 下面逐步介绍如何展开配置 1.安装pycharm 社区版 + python3.7.8 2.安装MongoDB 3.2.22 [MongoDB安装指南](https://www.cnblogs.com/billyzh/p/5913687.html) 注:记得跟着指南 安装MongoDB服务 3.安装neo4j [neo4j安装指南](https://www.cnblogs.com/ljhdo/archive/2017/05/19/5521577.html)...
OSError: [Errno 22] Invalid argument: 'D:\\nlp\\WEB_KG-master\\baike\\logs\\Thu_Jan_14_03:25:15_2021.log'  这要怎么解决
请问下实体识别和关系抽取是用什么算法实现的?感谢
关于初始化
请问下如果想把之前得到的数据都删了,重新跑自己需要的数据,是把data里的数据都删了就好了吗? 还有想请问下如果只是爬自己感兴趣的目标集的话 items = set(response.xpath( '//a[contains(@href, "/item/")]/@href').re(r'/item/[A-Za-z0-9%\u4E00-\u9FA5]+')) for item in items: new_url = 'https://baike.baidu.com'+urllib.parse.unquote(item) new_item_name = re.sub( '/', '', re.sub('https://baike.baidu.com/item/', '', new_url)) if new_item_name not in self.olds: yield response.follow(new_url, callback=self.parse)...
如题,neo4j数据库中大概花了3个小时达到9w个节点,然后节点增加得就非常缓慢了,该如何优化呢? 速率曲线大概是这样  因为部署在阿里云主机上内存有限,用bloomfilter替代了代码中的set去重,并-s JOBDIR= 在磁盘上
请问怎么显示超过300个Node的可视化界面
我在项目的baike目录下运行scrapy crawl baike,结果报错“OSError: [Errno 22] Invalid argument: 'D:\\code\\program\\WEB_KG-master\\baike\\logs\\Sun_Mar_22_21:30:37_2020.log' ”,请问该怎么解决呢?感激不尽! 
抽取代码撤了吗
没看到抽取代码