albert_zh icon indicating copy to clipboard operation
albert_zh copied to clipboard

请教一下输入token如果是词内部的字,使用的token是'字'还是'##字'?

Open yangxudong opened this issue 5 years ago • 0 comments

我注意到bert官方提供的中文vocab.txt里,每个汉字都有两个token,一个带有'##'前缀,一个不带前缀,我的理解是不带前缀的表示词的首字,带前缀的是非首字。由于两者转换为id后并不相同,我想请教一下对应词内非首字,预训练数据的输入是否使用带前缀的token(给模型输入分词信息)?另外,MLM的label是否使用带前缀的版本?不胜感激!

yangxudong avatar Oct 22 '19 15:10 yangxudong