EntLM icon indicating copy to clipboard operation
EntLM copied to clipboard

支持中文ner吗

Open apexg opened this issue 2 years ago • 10 comments

apexg avatar Apr 26 '22 02:04 apexg

你好,我们的方法从原理上来说是支持中文NER的。但我们暂时没有在中文NER上实验过。

rtmaww avatar Apr 26 '22 05:04 rtmaww

我在本论文的代码开源之前自己尝试复现过,在中文NER上做过,是可以的

sxysxy avatar May 03 '22 02:05 sxysxy

可以这么做,英语中像人名你可以用John,Susan之类的选一个当labelword,地名 China,London,BeiJing,全都可以。但是对于汉语的话,确实很难找到一个合适的字去代表一类标签的字。我之前自己复现的时候用的DataSearch&Virtual方法找labelword,在CoNLL2003上还行,在OntoNotes5(中文NER部分)和CCKS2019医学NER(使用了medbert),这种Prompt方法在full data和few shot上都取得了更差的效果(和BERT-Linear与BERT-Linear-CRF相比)。链接 https://github.com/sxysxy/NERTasks 我也想请教作者

sxysxy avatar May 03 '22 08:05 sxysxy

是这样,我后来补充了一些实验,并且注意到作者代码中有IO标注替代BIO标注的函数,我也觉得IO标注可能更适合论文中EntityLM,于是我自己复现的实现中也尝试了这样的转换。目前的结果表明在CoNLL2003的Full Data和Few Shot上这种Prompt方法都显著优于我实验所用的其他模型(BiLSTM-Linear, BiLSTM-Linear-CRF, BERT-BiLSTM-Linear, BERT-BiLSTM-Linear-CRF, BERT-Linear)。但是在中文数据集上表现还是差一些,不如BERT-Linear、BERT-Linear-CRF。 详细实验设置、结果见https://github.com/sxysxy/NERTasks/blob/main/README.md

sxysxy avatar May 03 '22 18:05 sxysxy

是这样,我后来补充了一些实验,并且注意到作者代码中有IO标注替代BIO标注的函数,我也觉得IO标注可能更适合论文中EntityLM,于是我自己复现的实现中也尝试了这样的转换。目前的结果表明在CoNLL2003的Full Data和Few Shot上这种Prompt方法都显著优于我实验所用的其他模型(BiLSTM-Linear, BiLSTM-Linear-CRF, BERT-BiLSTM-Linear, BERT-BiLSTM-Linear-CRF, BERT-Linear)。但是在中文数据集上表现还是差一些,不如BERT-Linear、BERT-Linear-CRF。 详细实验设置、结果见https://github.com/sxysxy/NERTasks/blob/main/README.md

你好,感谢你对我们论文的复现。我看了一下你的实验设置,在超参设置上给你一些参考:1.我们实验中跑基于BERT的模型(BERT-tagger和EntLM)full set一般设置batchsize=16, lr=5e-5; few-shot一般设置batchsize=4, lr=1e-4。few-shot实验对这个超参还比较敏感,这个超参也是我们参考[https://arxiv.org/abs/2012.14978 这篇论文的。2.我们的EntLM方法在非常少样本的情况下比较有优势,数据数量增加优势就不明显了。在full set上一般和BERT-tagger表现差不多。另外在长实体的情况下,我们这种方法的表现我还没有测试过。如果按照我们的超参设置,在中文数据集上表现还是不好,可能是我们方法在长实体下表现不够好的问题。

rtmaww avatar May 04 '22 06:05 rtmaww

提一个问题,这个方法能解决Nest实体吗?(我看到论文中,提到,对于多span时,采用相同的label,所以,我想这在Nest情况下,并不成立,比如,北京大学位于....,其中北京是loc,北京大学是org),不知道我理解的对不对?

Hou-jing avatar May 26 '22 08:05 Hou-jing

提一个问题,这个方法能解决Nest实体吗?(我看到论文中,提到,对于多span时,采用相同的label,所以,我想这在Nest情况下,并不成立,比如,北京大学位于....,其中北京是loc,北京大学是org),不知道我理解的对不对?

你好,我们的方法目前确实无法解决嵌套实体的问题,这也是未来可能改进的一个方向。

rtmaww avatar May 26 '22 09:05 rtmaww

你好,我在中文数据集上使用count_freq.sh之后 生成的那个标签列表是空的。"I-EVENT": ["War", "Games", "Katrina", "Year", "Hurricane", "II"] 例如这个列表,我生成的就是 ”I-事件“:[]。请问这个是什么问题

l664817784 avatar Sep 21 '22 08:09 l664817784

可以这么做,英语中像人名你可以用John,Susan之类的选一个当labelword,地名 China,London,BeiJing,全都可以。但是对于汉语的话,确实很难找到一个合适的字去代表一类标签的字。我之前自己复现的时候用的DataSearch&Virtual方法找labelword,在CoNLL2003上还行,在OntoNotes5(中文NER部分)和CCKS2019医学NER(使用了medbert),这种Prompt方法在full data和few shot上都取得了更差的效果(和BERT-Linear与BERT-Linear-CRF相比)。链接 https://github.com/sxysxy/NERTasks 我也想请教作者

可以这么做,英语中像人名你可以用John,Susan之类的选一个当labelword,地名 China,London,BeiJing,全都可以。但是对于汉语的话,确实很难找到一个合适的字去代表一类标签的字。我之前自己复现的时候用的DataSearch&Virtual方法找labelword,在CoNLL2003上还行,在OntoNotes5(中文NER部分)和CCKS2019医学NER(使用了medbert),这种Prompt方法在full data和few shot上都取得了更差的效果(和BERT-Linear与BERT-Linear-CRF相比)。链接 https://github.com/sxysxy/NERTasks 我也想请教作者

你好,请问你用中文数据集后,如何得到远程监督的数据呢?

Godxia avatar Mar 22 '23 08:03 Godxia

我看您使用了prompt方法,有没有尝试使用大模型来做呢,我看您的实验模型是bert-uncase

githubgtl avatar Jul 03 '23 10:07 githubgtl