t5-pegasus-pytorch icon indicating copy to clipboard operation
t5-pegasus-pytorch copied to clipboard

似乎这是一个 uncased 模型,对英文大写和空格等 token 进行了处理,对于中文来说 cased version 是否更合适?

Open qiguanqiang opened this issue 1 year ago • 1 comments

我是一个正在学习生成式模型的小白,请大佬不吝赐教

qiguanqiang avatar Mar 28 '23 09:03 qiguanqiang

中文的类bert tokenizer 都是uncased。 个人觉得英文是关注cased的情况比较多

renmada avatar Apr 03 '23 06:04 renmada