yangxudong
Results
5
issues of
yangxudong
我注意到bert官方提供的中文vocab.txt里,每个汉字都有两个token,一个带有'##'前缀,一个不带前缀,我的理解是不带前缀的表示词的首字,带前缀的是非首字。由于两者转换为id后并不相同,我想请教一下对应词内非首字,预训练数据的输入是否使用带前缀的token(给模型输入分词信息)?另外,MLM的label是否使用带前缀的版本?不胜感激!
能否加一个longestPrefixMatch方法?功能就是把findFirst()的返回结果改为最长匹配的子串