dongdong
Results
1
issues of
dongdong
你好,感谢你们的出色工作。 我在使用模型的 `tokenizer` 时遇到了一些问题。当我使用 `tokenizer` 对包含连续的空格和特殊字符(如 `\n`, `\t` 等)进行 `encode` 操作时,我发现 `tokenizer` 会忽略周围有多个空格的特殊字符,或者会将这些特殊字符转为多个空格,这使得再次进行 `decode` 操作后,文本中这些特殊字符会丢失。测试的代码如下: ```python tokenizer = AutoTokenizer.from_pretrained("fnlp/moss-moon-003-sft", trust_remote_code=True) text = "a \n b\n \nc \n " # input_ids:...