CPT icon indicating copy to clipboard operation
CPT copied to clipboard

BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

Open wlhgtc opened this issue 2 years ago • 5 comments

在 BART 的预训练过程中,使用 [SEP] 对每一个分句进行了分割,参考来自:这里。 但是在下游任务的处理中,好像没有看到类似的代码。 是否存在不一致的情况,还是说我漏掉了一些代码?

wlhgtc avatar Dec 28 '21 06:12 wlhgtc

@choosewhatulike

wlhgtc avatar Dec 29 '21 03:12 wlhgtc

BART中[SEP]在预训练时被用来分割打乱的句子。在下游任务中,只有NLI加上[SEP]分割两句话。你可以在下游任务中也加上这个,看看效果。

choosewhatulike avatar Dec 29 '21 04:12 choosewhatulike

@choosewhatulike 按照这种 pretrain 阶段的预处理,几乎每个标点后都会跟 [SEP],但是下游任务数据并不这么处理。 按照前面的说法,这种不一致带来的影响目前没有评估,或者认为很小?

wlhgtc avatar Dec 29 '21 06:12 wlhgtc

我觉得SEP主要用来区分不同的句子的。对句子分割不敏感的任务应该影响不大,比如文本分类、或者生成式摘要。而在抽取式摘要和NLI中加不加SEP可能有点影响。

choosewhatulike avatar Dec 29 '21 06:12 choosewhatulike

@choosewhatulike 好的,感谢回复。后续会在自己的任务上测试,如果有影响会同步过来。

wlhgtc avatar Dec 29 '21 06:12 wlhgtc