Minlong Peng comments

Results 18 comments of


                                            Minlong Peng

中文的如何弄？

对于问题1: 可以考虑用字级别的方法做中文命名实体识别，避免分词错误。对于问题2: 这种情况“北京上海”会被当作一个命名实体。你可以考虑引入无监督分词（基于n-gram语言模型）来解决这个问题。另外，“北京上海”之间一般会加个标点符号隔开。

这两个参数的作用效果有重叠，增大这两个参数值都会增加正类的权重，所以调参的时候考虑固定一个参数，只调整其中一个参数。调重参数可以分析一下p r f1 值，如果p值大而r值小考虑减小正类权重，否则降低权重。另外建议你分析一下词典的特性，是否覆盖面太小导致词典标注的数据没有代表性，如果是的话考虑扩充词典。词典标注是否错误率太高，是的话考虑筛选词典。最后，我们没有在中文数据集上做过实验，所以没有复现一说:)。

batch_size 可以不设为1么？

其实关于batch size是否可以设置为>1的值从方法角度来说是不需要讨论的，我们的方法只是在最底层的embedding层引入了基于词典的特征表示，对于上层的序列建模层（lstm， Transformer等）没有任何修改，所以只要你是用的序列建模层能接受batch size >1那么我们的方法就能接受batch size >1。至于说结果，虽然我们在论文中没有报告结果，但是大家代码跑一下就能知道结果。当然，不同的batch size的结果肯定不会完全一样。

词典构建

这个是基于大规模未标注数据用无监督分词方法对其进行分词，根据分词结果构建词典。当然，你也可以基于领域知识扩充词典。

词典构建

对比的时候大家用一样的词典就好。

我发现每个数据集的随机数种子都是不一样的

我们应该没有为每个数据集选择固定的随机种子，如果有请贴一下代码。

我发现每个数据集的随机数种子都是不一样的

Q: "按照其它issue里提供的hidden和lr，在msra和微博数据集上复现还差一个百分点，我想是因为我的seed设置的不对吗。" A: 这个应该不是seed的问题，除非你这边修改了seed。我们在实验过程中没有对seed进行search。不过你这边你可以尝试其他的seed。 Q：在cluener2020（已转为CoNLL format)上，dev跑到了79.5，距离bert-crf base-line还有1个百分点的距离。在10个分类和数据集较小的情况下，效果表现会差一些吗。 A：增加词典特征会增加输入特征的维度。在数据集较小、类别较多的情况下，模型的过拟合可能会更严重，词的频度统计信息可能也会不准确。我认为你说的这个现象很可能和这两个因素有关。我认为可以尝试的改进方案是按照频度对词典匹配情况进行修剪，删除在训练集合中出现次数较少的词的匹配。希望对你会有帮助。最后，对于迟到的回复表示抱歉！

Minlong Peng

中文的如何弄？

关键参数如何根据实体分布不同做调整

batch_size 可以不设为1么？

词典构建

词典构建

我发现每个数据集的随机数种子都是不一样的

我发现每个数据集的随机数种子都是不一样的

what's your Bert pretrained model?

关于测试集的实体信息加入gaz的问题

权重计算的问题