Minlong Peng

Results 18 comments of Minlong Peng

对于问题1: 可以考虑用字级别的方法做中文命名实体识别,避免分词错误。 对于问题2: 这种情况“北京上海”会被当作一个命名实体。你可以考虑引入无监督分词(基于n-gram语言模型)来解决这个问题。另外,“北京上海”之间一般会加个标点符号隔开。

这两个参数的作用效果有重叠,增大这两个参数值都会增加正类的权重,所以调参的时候考虑固定一个参数,只调整其中一个参数。调重参数可以分析一下p r f1 值,如果p值大而r值小考虑减小正类权重,否则降低权重。另外建议你分析一下词典的特性,是否覆盖面太小导致词典标注的数据没有代表性,如果是的话考虑扩充词典。词典标注是否错误率太高,是的话考虑筛选词典。最后,我们没有在中文数据集上做过实验,所以没有复现一说:)。

其实关于batch size是否可以设置为>1的值从方法角度来说是不需要讨论的,我们的方法只是在最底层的embedding层引入了基于词典的特征表示,对于上层的序列建模层(lstm, Transformer等)没有任何修改,所以只要你是用的序列建模层能接受batch size >1那么我们的方法就能接受batch size >1。至于说结果,虽然我们在论文中没有报告结果,但是大家代码跑一下就能知道结果。当然,不同的batch size的结果肯定不会完全一样。

这个是基于大规模未标注数据用无监督分词方法对其进行分词,根据分词结果构建词典。当然,你也可以基于领域知识扩充词典。

对比的时候大家用一样的词典就好。

我们应该没有为每个数据集选择固定的随机种子,如果有请贴一下代码。

Q: "按照其它issue里提供的hidden和lr,在msra和微博数据集上复现还差一个百分点,我想是因为我的seed设置的不对吗。" A: 这个应该不是seed的问题,除非你这边修改了seed。我们在实验过程中没有对seed进行search。不过你这边你可以尝试其他的seed。 Q:在cluener2020(已转为CoNLL format)上,dev跑到了79.5,距离bert-crf base-line还有1个百分点的距离。在10个分类和数据集较小的情况下,效果表现会差一些吗。 A:增加词典特征会增加输入特征的维度。在数据集较小、类别较多的情况下,模型的过拟合可能会更严重,词的频度统计信息可能也会不准确。我认为你说的这个现象很可能和这两个因素有关。 我认为可以尝试的改进方案是按照频度对词典匹配情况进行修剪,删除在训练集合中出现次数较少的词的匹配。希望对你会有帮助。 最后,对于迟到的回复表示抱歉!

在文中,我们用df对span进行加权,是因为我们认为df可以反映span构成词的概率。从这个角度来讲,我认为使用tf-idf对span进行加权没有太大意义:首先,span在一个句子中的tf通常为1,不具有区分度;其次,idf 是df的逆值,和我们的思想相违背。如果一定要用tf-idf的话建议用1/tf-idf进行加权。另外,如果觉得tf尺度太大的话,可以考虑引入单调函数,如log函数,对tf进行变换后作为span的权重。

这里的build_gaz是统计词(不是仅仅是实体)的频度信息。当时考虑到数据的大小,我们把测试集合也加入到统计集中。作为改进措施,可以收集一个同领域的无标注数据,然后在该数据上统计词频信息。

因为Z是四个集合(B M E S)的并集;而Eq. (10)中,w只取自一个集合;乘以4是为了保持v^s(S)和e^w(w)的量纲一致。