Fengshenbang-LM
Fengshenbang-LM copied to clipboard
T5 tokenize过程貌似有bug?
如果tokenize “阅读者”,在结果中没有pad token(290)(仅有阅读、者、结束符三个token).我在其他的例子中都没有发现这个bug
方便贴出你使用的例子代码吗?
我这边用以下代码 max_length, padding 测试应该是正常的。
>>> T5Tokenizer.from_pretrained("IDEA-CCNL/Randeng-T5-784M-QA-Chinese")
>>> tokenizer.encode("阅读者",max_length=100, padding='max_length')
[11622, 1290, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]