yangxudong

Results 5 issues of yangxudong

我注意到bert官方提供的中文vocab.txt里,每个汉字都有两个token,一个带有'##'前缀,一个不带前缀,我的理解是不带前缀的表示词的首字,带前缀的是非首字。由于两者转换为id后并不相同,我想请教一下对应词内非首字,预训练数据的输入是否使用带前缀的token(给模型输入分词信息)?另外,MLM的label是否使用带前缀的版本?不胜感激!

能否加一个longestPrefixMatch方法?功能就是把findFirst()的返回结果改为最长匹配的子串

ci_test_failed
ci_py3_tf25_test_passed