KGData
KGData copied to clipboard
各个行业知识图谱分享,关系抽取,数据清洗,提供 neo4j 批量导入格式,ncov,疫情数据,百科,医疗,保险,汽车,垃圾分类,产业链,
KGData
各个行业知识图谱分享,关系抽取,数据清洗,提供 neo4j 批量导入格式,图片不出来的看这里:https://www.jianshu.com/p/25e5e07b2464
Menu
Topic | Description | status |
---|---|---|
百科通用数据 | 百科通用数据 | 已完成,部分公开 |
医疗数据 | 疾病,症状,科室,用药等 | 已完成 |
垃圾分类 | 上海垃圾分类数据 | 已完成,完全公开 |
汽车配件-车灯 | 各种型号各种年份汽车对应的各类车灯,安装方式 | 已完成 |
新冠疫情 | 新冠疫情公开的行为轨迹,可供做知识推理【公益免费】 | V1.0完成 |
保险产品 | 保险产品知识图谱,全网最全,种类超2.7w | 完成 |
产业链 | 行业,公司,产品,上下游 | 完成 |
《百科数据》
中文知识图谱,4000w实体,一亿关系,这是我精心整理、清洗、去重后的数据,数据格式已经处理,可用 neo4j-admin 直接导入,所有数据来源都是公开的百科或新闻数据。
由于 github文件大小限制,以下给出了部分数据,并附上了使用步骤,适合研究生交作业用,接受定制服务
使用步骤
1.首先你要自行安装 neo4j 下载地址:https://neo4j.com/download/
2.由于本方式是覆盖导入,建议创建一个全新的知识图谱库
3.解压后将两个文件放入 import 目录
4.在命令行执行导入语句
bin/neo4j-admin import --id-type=STRING --multiline-fields=true \
--nodes "import/entity10.csv" \
--relationships "import/relationship10.csv" \
tips:
1.windows下请去掉命令中的换行符
2.windows下如果提示路径不对,可以将文件路径替换为完整路径
导入成功显示如下:
IMPORT DONE in 3s 337ms.
Imported:
100000 nodes
88362 relationships
288361 properties
Peak memory usage: 1.03 GB
5.启动 neo4j,查看导入的数据
MATCH (ee:my_entity) WHERE ee.name = "文天祥" RETURN ee;
点击展开子节点,返回效果如下
《医疗数据》
V3.5以上版本导入方法:
1.stop要操作的库
2.操作库 manager-》open terminal
3.执行命令 bin/neo4j-admin load --from=/path/to/file/2020-03-241.dump --database=graph.db --force
旧的导入方法:
1.创建一个新的图谱(注意不要启动)
2.下载数据
例如:链接:https://pan.baidu.com/s/1kMynr6lu13wyqTag7xUlpQ
3.将数据解压到 data/databases 下
4.启动服务
5.查看效果
6.微信小程序(微信搜索:小橙机器人)
本图谱+NLU+DM+GPT-3
《垃圾分类》
1.使用方式同医疗数据
2.数据地址:https://github.com/chriswangweb/KGData/blob/master/%E5%9E%83%E5%9C%BE%E5%88%86%E7%B1%BB/graph.db.zip
3.效果
新冠疫情
全网首份包含患者出行轨迹的知识图谱,换了超过 10 个数据源,目前的数据源算是最好的,但是还是包含较多的脏数据,后续会整理个精准度更高的版本
整理步骤如下:
Topic | Description |
---|---|
病人基本信息 | ok |
关联病人 | - |
发病 | - |
确诊 | ok |
离鄂 | - |
出行信息 | ok |
活动 | ok |
1.使用方式同医疗数据
2.数据地址:https://github.com/chriswangweb/KGData/blob/master/ncov/graph.db.zip
网络不好的可以使用网盘地址 链接:https://pan.baidu.com/s/12-fLMV4jEc7BRXj4dUKQGg 密码:b08l
3.效果
汽车车灯
哪个男人会不爱车
1.使用方式同医疗数据
2.数据地址
3.效果
保险产品
全网最全,种类超2.7w
- 公司名称
- 产品名称
- 产品类别
- 设计类型
- 产品特殊属性
- 承保方式
- 保险期间类型
- 产品交费方式
- 产品条款文字编码
- 产品销售状态
- 停止销售日期
1.使用方式同医疗数据
2.数据地址:链接: https://pan.baidu.com/s/1ItgHr_YmT1iNsWbdZ4FF8g 密码: fh86 闲鱼搜索鱼塘:知识图谱
3.效果
工业产业链
工业产品分类,公司,产品,上下游(上下游数据对齐目前不足)
1.使用方式
LOAD CSV FROM 'file:///product.csv' AS line merge (:Product { id:line[0],name: line[1]})
LOAD CSV FROM "file:///product.csv" AS line match (from:Product{name:line[1]}),(to:Product{name:line[4]}) merge (from)-[r:Parent{level:line[3]}]->(to)
2.数据地址 https://github.com/chriswangweb/KGData/blob/master/%E4%BA%A7%E4%B8%9A%E9%93%BE/product.csv
3.效果
联系作者
公众号:作者微信:AI-decoder,作者邮箱联系方式:[email protected]
捐赠作者(捐赠将用来购买服务器,OSS,更快的处理速度,更多的数据,更快的下载速度)