pmouren
pmouren
> * 作者您好,我有一个疑惑希望可以得到您的解答 > * 你基于英文的每一个词是可以拆分到单个字母,做embeding, 中文的话是否要分词?但是分词存在边界很有可能就错了 > * 在一个是实体词重合,你是怎么考虑的?比如说,北京上海都是一个国际大都市, 会出来 [1,1,1,1,0,0,0,0,0,0,0,0], 那现在的做法是直接将 北京上海看成一个实体词吗? 您好,请问您最后在中文数据集上复现了么
请问大家有解决这个权重参数的设置问题么,我想在中文数据集上进行复现也遇到了同样的问题,但是不知道按照什么依据来设置合理的参数值
> 这两个参数的作用效果有重叠,增大这两个参数值都会增加正类的权重,所以调参的时候考虑固定一个参数,只调整其中一个参数。调重参数可以分析一下p r f1 值,如果p值大而r值小考虑减小正类权重,否则降低权重。另外建议你分析一下词典的特性,是否覆盖面太小导致词典标注的数据没有代表性,如果是的话考虑扩充词典。词典标注是否错误率太高,是的话考虑筛选词典。最后,我们没有在中文数据集上做过实验,所以没有复现一说:)。 嗯嗯,懂了,感谢回答!!