Weijie Liu comments

Results 63 comments of


Weijie Liu

About Knowgraph.py

> > > 您好，请问Knowgraph.py中add_knowledge_with_vm函数通过pkseg分词得到的是每个字而不是单词，而brain知识图谱中的实体都是词组，这样不是匹配不上吗？ > > > 如： > > > ['[CLS]两小时读完'] > > > [['[CLS]', '两', '小', '时', '读', '完', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]',...

预训练模型

我们预训练是使用另一个项目，称作UER https://github.com/dbiir/UER-py

知识的融入与大规模语料

> 您好，看到在以前的讨论[Issue2](https://github.com/autoliuweijie/K-BERT/issues/2#issuecomment-564976498)中提到了关于k-bert在一些任务上效果不显著的问题。其中第二点提到 > > > 知识图谱的质量不高，目前我们的知识图谱大多从开放领域图谱中筛选的，其中的知识BERT通过大规模语料预训练也能得到。 > > 1 怎样的知识是比较适合在k-bert场景中引入的？ > 2 我理解获取大规模语料应该比获取知识的成本要低，如果模型通过大规模的语料预训练也能得到知识的话，那么通过如k-bert这样的方式引入知识的具体意义或者说适用场景在哪里？ 1. 目前K-BERT的一个最大弱点是没有对关联到的三元组进行筛选和把关，因此，因为一词多义产生的错误知识会对K-BERT造成影响，因此，对于K-BERT，比较适合加入领域中无歧义的知识，另外，这个知识最好是从预训练预料中学不到的。 2. 上面提到，对于K-BERT，有效的地方是预训练语料中学不到的知识。举个例子 “天安门，位于，北京”这个三元组对于K-BERT的作用很小，因为“天安门”和“北京”在大规模预料中经常会共同出现，因此这两个词的embedding特别接近。而“阿斯匹林，减缓，肺内流“这种专业领域的知识，在大规模预料中很少共同出现，这类知识是对K-BERT有效的。

你好，对您的这篇工作很感兴趣，想follow您的工作，方便公布剩余的数据集吗？万分感谢！

所有数据集都公布了，请看READMD.md的 Prepara部分 Optional - Download the datasets for evaluation from [here](https://share.weiyun.com/5Id9PVZ), unzip and place them in the datasets/ directory.

关于论文的可视矩阵

因为Tim(1) Cook(2)是一个实体词，而Apple(4)是“Tim Cook”这个整体关联到的, 所以1和4之间是可以相互看到的。

请问一个实体如果对应到多个三元组的话如何选择，全部挂上去吗？

目前是在brain/config.py里设置了MAX_ENTITIES

How do you make the knoeldege graphs on the QA dataset?

> Since the knowledge graph is only for CNBopedia, how do you generalize this for another domain? In other domain, the domain knowledge graph needs to be constructed and converted...

关于pretrained model

> 好像找到问题了，您用的google_config.json文件，好像跟之前的json是跟官方的json文件是不一样的是么？我把之前pre-trained model用您这个替换，现在程序是可以跑了的 > json文件你是做了哪方面的修改呢？请问你指的“官方的json文件“是指哪一个？本项目的json是按照标准BERT配置的。

About the bin File

> 您好， > > 您的论文和idea真的令人印象深刻！ > > 有过一个问题想要请教您。 > > 我尝试用您的framework load 我自己的model的时候，是会报错的。 > > 我看了您之前的回答，您对您的bin文件是做了一定的修改 > > 想问下，您对您的bin文件做了怎样的修改呢？ > > 麻烦您了请问你自己的model是使用什么框架实现的？bin文件是通过对Google模型转码得到的，请确保你的模型符合本项目的使用。

About the bin File

> 你好我有点好奇，關於"bin文件是通过对Google模型转码得到的" > 是什么意思?你是重新pre-trained一个类似BERT的Pre-trained model吗 > 如果是的话，是否能详述实作的方法呢 > > 非常感谢并不是重新预训练一个BERT模型，而是将Google训练好的模型参数对应到本项目中各个Tensor上。具体的转码脚本见我们的UER项目：https://github.com/dbiir/UER-py/blob/master/scripts/convert_bert_from_google_to_uer.py