K-BERT icon indicating copy to clipboard operation
K-BERT copied to clipboard

Source code of K-BERT (AAAI2020)

Results 59 K-BERT issues
Sort by recently updated
recently updated
newest added

不好意思,想请教您一下 有一个huggingface的pretrained model, 我在跑您的模型之前,已经用convert_bert_from_huggingface_to_uer的script做了转换,但每次都是报这么个错误,研究很久,实在没明白为什么。。 中文和英文的pretrained model我都试过,都是从google官网上重新下载的,但都是提示相同的错误。 就想跟您请教下,您对您的bin文件还做了其他修改么? 真的麻烦您了,谢谢

您好,看到在以前的讨论[Issue2](https://github.com/autoliuweijie/K-BERT/issues/2#issuecomment-564976498)中提到了关于k-bert在一些任务上效果不显著的问题。其中第二点提到 >知识图谱的质量不高,目前我们的知识图谱大多从开放领域图谱中筛选的,其中的知识BERT通过大规模语料预训练也能得到。 1 怎样的知识是比较适合在k-bert场景中引入的? 2 我理解获取大规模语料应该比获取知识的成本要低,如果模型通过大规模的语料预训练也能得到知识的话,那么通过如k-bert这样的方式引入知识的具体意义 或者说 适用场景在哪里?

好像没有找到相关的预训练代码

Hi~ 通过soft position index和visible matrix来保持同质embedding空间,避免知识噪音的做法真的是巧妙,但是我有一个疑问,如果把input sentence里面的entity在知识库里找到之后不做soft position index和visible matrix的变换,而是直接转换为几个句子,其中包含原始的input sentence和找到的entity对应到知识库中的句子,然后一句一句的输入到bert中去fine tune的话,是不是也可以达到知识注入的效果呢?并且因为是每个知识都转换成了独立的句子,对应于bert里的hard position index, 这样做会有什么问题吗?请指教,谢谢~

您好,请问Knowgraph.py中add_knowledge_with_vm函数通过pkseg分词得到的是每个字而不是单词,而brain知识图谱中的实体都是词组,这样不是匹配不上吗? 如: ['[CLS]两小时读完'] [['[CLS]', '两', '小', '时', '读', '完', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', ...

Hi, 您好,KBERT的构思非常巧妙,最近使用这套框架做了一系列的实验。中间有关于K-BERT的疑问,想向您探讨咨询一下: 从代码看到,KBERT在训练和inference两个过程里都会将知识挂载到训练样本上,训练(或者说finetune)过程中把知识挂载上去,我理解有两种可能的作用: 第一种是让模型“学习”这些带有知识的训练样本,从而让知识被模型学到。 第二种是让模型学习到可以在训练样本上挂在知识这件事情,从而在inference的时候,模型可以有效的handle这些挂载了知识的训练样本。 从论文推断我理解作者应该是第一种情况。 那么,理论上因为模型已经通过样本学习到了知识,是否在inference时,不挂载知识而采用普通样本,模型也能inference出相对更好的效果?

主要是XNLI、LCQMC、NLPCC-DBQA这三个数据集,不知道您是如何划分训练、dev和test集的。

您好, 您的论文和idea真的令人印象深刻! 有过一个问题想要请教您。 我尝试用您的framework load 我自己的model的时候,是会报错的。 我看了您之前的回答,您对您的bin文件是做了一定的修改 想问下,您对您的bin文件做了怎样的修改呢? 麻烦您了