t5-pegasus-pytorch
t5-pegasus-pytorch copied to clipboard
似乎这是一个 uncased 模型,对英文大写和空格等 token 进行了处理,对于中文来说 cased version 是否更合适?
我是一个正在学习生成式模型的小白,请大佬不吝赐教
中文的类bert tokenizer 都是uncased。 个人觉得英文是关注cased的情况比较多