LLMPruner
LLMPruner copied to clipboard
中文词显示乱码
请问tokenizer.json中vocab部分中文显示都是乱码,如何可以正常显示和读取呢? "æ¸¡æ±Ł": 42789
这是byte-level BPE的token,是以字节为粒度做切分,所以表现出来是一个乱码
因为中文的编码是由多个字节构成的,例如 utf8 里的中文大部分由 3 字节构成,而 BPE 拆分的时候是以单个字节为单位拆分的,一个汉字可能在编码层面上被截断成了三份甚至更多,因此词表里无法正常显示中文,但不影响整个 input_ids 数组最终 decode 出来的效果