KuangJun
KuangJun
@GaleHuang 我们将已有的结构化数据与纯文本对齐,得到关系抽取的训练集。这一步只是做简单的字符串匹配,确实会存在噪音问题。实际上这也是远程监督的思想,远程监督必然会带来噪音。我们使用的关系提取算法可以在一定程度上可以缓解训练集噪音问题。由于数据的稀疏性,通过算法预测得到的三元组精度不如众包方式得到的结构化三元组,这也是目前关系抽取算法研究不断推陈出新的原因。因此,最后进入到图谱中的三元组还需要进行人工审核。
是指github项目无法下载还是demo无法打开?
你好, @chendengshuai 由于项目包含很多数据文件,整个项目比较大。我自己这边尝试直接download zip文件是没有问题的。
> findRelationBetweenEntities @BlockChanZJ 修改为这个文件里的函数哈https://github.com/qq547276542/Agriculture_KnowledgeGraph/blob/master/demo/Model/neo_models.py
> > 你们跑通了吗 > > 没有,卡在 > File "extractTrainingData.py", line 86, in > answer = db.findRelationBetweenEntities(entityList[i].get('entity1')) > AttributeError: 'Neo4j' object has no attribute 'findRelationBetweenEntities' > > Neo4j 类里面没有findRelationBetweenEntities函数 可以尝试修改为这个文件里的函数 https://github.com/qq547276542/Agriculture_KnowledgeGraph/issues/81#issuecomment-745722356
> extractTrainingData.py 要运行得太慢了,怎么能提速呢? 这个得你得自己研究下了,我感觉无非就是多几个线程搞搞。。。
mongodb存储的是语句、实体对、实体之间的关系,demo中暂时没有用到
多级展示是什么意思?请具体描述一下
@jscjscjsc 你好, 1. 可以查找两个实体间的最短路,除此之外我们没有实现更复杂的图谱,该功能实际上是可以实现的。 2. 词向量是由语料库训练出来的,你可以下载别人预训练好的词向量,也可以根据自己的业务场景用对应的语料库自行训练。gensim中提供了word2vec的包,很容易可以实现,其他算法例如glove也有相应的源代码。
你好,把你的数据转换成如下格式的json就可以: ` { "head": { "id": "/guid/9202a8c04000641f800000000094674d", "type": "/common/topic,/location/neighborhood,/location/location", "word": "Mount Washington" }, "relation": "/location/neighborhood/neighborhood_of", "sentence": "And meteorologists profiled an astounding storm : 7.57 inches of rain in Central Park...