Rclurn
Results
2
comments of
Rclurn
Hello, I would like to know if you have finally resolved this issue
> 你好, > > 你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成,且我们的程序在预处理的时候会根据解析预生成推荐的答案(可见标注手册部分),因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。 > > 但是由于这些有问题的样本在整个语料库中占比不会太大,因此建议直接对MOD和INS的操作进行简单的清洗,如当需要插入或修改非常多Token(例如8个以上)的时候,基本上这个操作/例子(如果其只有这种改法)可以被忽略。 > > 非常感谢你的反馈,我们之后等有时间的时候会再对语料进行检查,来改正这部分的数据。 感谢回复,在[convert_seq2seq_to_operation.py]这个脚本文件中,可以注意到其实数据集中是有很多原始句子与目标句子长度不同的,但是操作还是先switch再进行其他operation的,但是在这个脚本文件中发现只有原始句子与目标句子长度一致,才会进行switch标签的生成,所以想请教一下,类似于这种是人工标注的么?