He Xingwei (贺星伟)

Results 4 comments of He Xingwei (贺星伟)

incorrect_input_ids_list: encoder input label_ids_list: encoder labels target_ids_list: decoder labels

构造数据的时候,用的随机采样操作,所以一条数据可以构造多条伪数据。 keywork.txt相当于测试集,里面的数据不参与训练。ground-truth用于评测生成文本质量。

indicate_labels 是为了记录每个词语的开始位置。和论文中encoder labels 中0, 1, 2的含义不同。 假如给定的某个词语被切分以后得到了三个子词a,b,c, 那么对应的labels 就是[1,0,0]。为了保证原来的词语完整,那么就不允许在a, b, c之间插入新的子词,而只允许在原来词语的首个子词(即a)前面插入词语。这里的1指得是当前子词前面可以插入新词。 很抱歉代码的细节我记不太清了,细节你可以参考代码。