yangxudong issues

Repositories
Issues
Comments

Results 5 issues of


                                            yangxudong

请教一下输入token如果是词内部的字，使用的token是'字'还是'##字'?

我注意到bert官方提供的中文vocab.txt里，每个汉字都有两个token，一个带有'##'前缀，一个不带前缀，我的理解是不带前缀的表示词的首字，带前缀的是非首字。由于两者转换为id后并不相同，我想请教一下对应词内非首字，预训练数据的输入是否使用带前缀的token（给模型输入分词信息）？另外，MLM的label是否使用带前缀的版本？不胜感激！

能否提供一个最长前缀匹配方法？

能否加一个longestPrefixMatch方法？功能就是把findFirst()的返回结果改为最长匹配的子串

Add support for componet based Custom op

code_style_test_passed

[feat]: Add sequence encoder to easy_rec_model object

103

ci_test_failed

ci_py3_tf25_test_passed

yangxudong

请教一下输入token如果是词内部的字，使用的token是'字'还是'##字'?

能否提供一个最长前缀匹配方法？

Add support for componet based Custom op

[feat]: Add sequence encoder to easy_rec_model object

Optimize dpp sort module