UER-py
UER-py copied to clipboard
关于预训练过程中build_instances 句子切分的问题
以MlmDataset 中 最简单的字粒度为例,不开启full-sentence开关 当样本长度超过max_length时候,样本被切分 然而此时的 [CLS] [SEP] token 却只存在一份,这是由之前的 document 传入的,样本拆分后并没有产生额外的头尾 token 这种行为符合预期么,理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾
有道理,这个问题我确认一下