UER-py icon indicating copy to clipboard operation
UER-py copied to clipboard

关于预训练过程中build_instances 句子切分的问题

Open ShadowTeamCN opened this issue 4 years ago • 1 comments

以MlmDataset 中 最简单的字粒度为例,不开启full-sentence开关 当样本长度超过max_length时候,样本被切分 然而此时的 [CLS] [SEP] token 却只存在一份,这是由之前的 document 传入的,样本拆分后并没有产生额外的头尾 token 这种行为符合预期么,理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾

ShadowTeamCN avatar Oct 18 '21 12:10 ShadowTeamCN

有道理,这个问题我确认一下

ydli-ai avatar Oct 20 '21 06:10 ydli-ai