UER-py 关于预训练过程中build_instances 句子切分的问题

关于预训练过程中build_instances 句子切分的问题

Open ShadowTeamCN opened this issue 4 years ago • 1 comments

以MlmDataset 中最简单的字粒度为例，不开启full-sentence开关当样本长度超过max_length时候，样本被切分然而此时的 [CLS] [SEP] token 却只存在一份，这是由之前的 document 传入的，样本拆分后并没有产生额外的头尾 token 这种行为符合预期么，理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾

Oct 18 '21 12:10 ShadowTeamCN

有道理，这个问题我确认一下

Oct 20 '21 06:10 ydli-ai

UER-py UER-py copied to clipboard

关于预训练过程中build_instances 句子切分的问题

UER-py
UER-py copied to clipboard