Weijie Liu

Results 63 comments of Weijie Liu

> > > 您好,请问Knowgraph.py中add_knowledge_with_vm函数通过pkseg分词得到的是每个字而不是单词,而brain知识图谱中的实体都是词组,这样不是匹配不上吗? > > > 如: > > > ['[CLS]两小时读完'] > > > [['[CLS]', '两', '小', '时', '读', '完', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]',...

我们预训练是使用另一个项目,称作UER https://github.com/dbiir/UER-py

> 您好,看到在以前的讨论[Issue2](https://github.com/autoliuweijie/K-BERT/issues/2#issuecomment-564976498)中提到了关于k-bert在一些任务上效果不显著的问题。其中第二点提到 > > > 知识图谱的质量不高,目前我们的知识图谱大多从开放领域图谱中筛选的,其中的知识BERT通过大规模语料预训练也能得到。 > > 1 怎样的知识是比较适合在k-bert场景中引入的? > 2 我理解获取大规模语料应该比获取知识的成本要低,如果模型通过大规模的语料预训练也能得到知识的话,那么通过如k-bert这样的方式引入知识的具体意义 或者说 适用场景在哪里? 1. 目前K-BERT的一个最大弱点是没有对关联到的三元组进行筛选和把关,因此,因为一词多义产生的错误知识会对K-BERT造成影响,因此,对于K-BERT,比较适合加入领域中无歧义的知识,另外,这个知识最好是从预训练预料中学不到的。 2. 上面提到,对于K-BERT,有效的地方是预训练语料中学不到的知识。举个例子 “天安门,位于,北京”这个三元组对于K-BERT的作用很小,因为“天安门”和“北京”在大规模预料中经常会共同出现,因此这两个词的embedding特别接近。而“阿斯匹林,减缓,肺内流“这种专业领域的知识,在大规模预料中很少共同出现,这类知识是对K-BERT有效的。

所有数据集都公布了,请看READMD.md的 Prepara部分 Optional - Download the datasets for evaluation from [here](https://share.weiyun.com/5Id9PVZ), unzip and place them in the datasets/ directory.

因为Tim(1) Cook(2)是一个实体词,而Apple(4)是“Tim Cook”这个整体关联到的, 所以1和4之间是可以相互看到的。

> Since the knowledge graph is only for CNBopedia, how do you generalize this for another domain? In other domain, the domain knowledge graph needs to be constructed and converted...

> 好像找到问题了,您用的google_config.json文件,好像跟之前的json是跟官方的json文件是不一样的是么?我把之前pre-trained model用您这个替换,现在程序是可以跑了的 > json文件你是做了哪方面的修改呢? 请问你指的“官方的json文件“是指哪一个? 本项目的json是按照标准BERT配置的。

> 您好, > > 您的论文和idea真的令人印象深刻! > > 有过一个问题想要请教您。 > > 我尝试用您的framework load 我自己的model的时候,是会报错的。 > > 我看了您之前的回答,您对您的bin文件是做了一定的修改 > > 想问下,您对您的bin文件做了怎样的修改呢? > > 麻烦您了 请问你自己的model是使用什么框架实现的?bin文件是通过对Google模型转码得到的,请确保你的模型符合本项目的使用。

> 你好我有点好奇,關於"bin文件是通过对Google模型转码得到的" > 是什么意思?你是重新pre-trained一个类似BERT的Pre-trained model吗 > 如果是的话,是否能详述实作的方法呢 > > 非常感谢 并不是重新预训练一个BERT模型,而是将Google训练好的模型参数对应到本项目中各个Tensor上。 具体的转码脚本见我们的UER项目:https://github.com/dbiir/UER-py/blob/master/scripts/convert_bert_from_google_to_uer.py