CPT BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

BART 模型在 pretrain 和 finetune 阶段的数据预处理一致性

Open wlhgtc opened this issue 2 years ago • 5 comments

在 BART 的预训练过程中，使用 [SEP] 对每一个分句进行了分割，参考来自：这里。但是在下游任务的处理中，好像没有看到类似的代码。是否存在不一致的情况，还是说我漏掉了一些代码？

Dec 28 '21 06:12 wlhgtc

@choosewhatulike

Dec 29 '21 03:12 wlhgtc

BART中[SEP]在预训练时被用来分割打乱的句子。在下游任务中，只有NLI加上[SEP]分割两句话。你可以在下游任务中也加上这个，看看效果。

Dec 29 '21 04:12 choosewhatulike

@choosewhatulike 按照这种 pretrain 阶段的预处理，几乎每个标点后都会跟 [SEP]，但是下游任务数据并不这么处理。按照前面的说法，这种不一致带来的影响目前没有评估，或者认为很小？

Dec 29 '21 06:12 wlhgtc

我觉得SEP主要用来区分不同的句子的。对句子分割不敏感的任务应该影响不大，比如文本分类、或者生成式摘要。而在抽取式摘要和NLI中加不加SEP可能有点影响。

Dec 29 '21 06:12 choosewhatulike

@choosewhatulike 好的，感谢回复。后续会在自己的任务上测试，如果有影响会同步过来。

Dec 29 '21 06:12 wlhgtc