altctrl00

Results 2 comments of altctrl00

我刚好也碰到这个问题,做英文ner,用wordpiece方法分词,就以[['[CLS]', '-', 'do', '##cs', '##tar', '##t', '-', '[SEP]']为例,我喂给bert的数据集features里tag_id是就只给第一个子词'do'原来’-docstart-‘的标签,其他的词用比如-100代替?那crf层的数据输入中mask也许要屏蔽掉除第一个字词的其他词嘛,输出结果又会是什么样的呢。

> 我刚好也碰到这个问题,做英文ner,用wordpiece方法分词,就以[['[CLS]', '-', 'do', '##cs', '##tar', '##t', '-', '[SEP]']为例,我喂给bert的数据集features里tag_id是就只给第一个子词'do'原来’-docstart-‘的标签,其他的词用比如-100代替?那crf层的数据输入中mask也许要屏蔽掉除第一个字词的其他词嘛,输出结果又会是什么样的呢。 我翻了下pytorch-crf源码 它的input_mask中所有的padding只在右边,所以就会是错误的