yongyehuang
yongyehuang
@parkourcx 你好,感谢提问。你的这个问题应该不是句子长度的问题,而是数据处理中每个字的label标注的不对。我记得标注中只用了 s b m e 四种标注分别表示:` s- 单字成词, b- 词首, m-词中,e-词尾`;对于 padding 部分统一使用 x 作为标注。从你的报错来看你的 label 有些 `-2147483648 `应该是不对的,还有我也不太明白`(今/B 天/M是/M个/M好/E3天/E2气/E)` 为什么这样标注。
@parkourcx 这样的话应该没有什么问题,你可以比较一下这样的标注和只使用 s b m e 四tag标注的方式看看那个效果好。模型的话这个模型也是比较简单的模型,你也可以尝试一下` lstm+crf` 的模型(我自己也没跑过。。。),序列标注中用得还是比较多的。
@parkourcx padding 是为了把每个样本变成一样的长度,对于长度不足的部分序列要使用一个特殊符号进行补充,这个特殊符号都标注为一个新的label,所以你还是使用 tags=[‘s’,‘b’,‘m’,‘e’,‘x’] 吧。
@parkourcx 'x' 是在代码处理中加上的tag,不是标注数据中的 tag
@FinIoT 你好,这个是我自己分析数据统计出来。
I am also looking for the list!