LLMPruner icon indicating copy to clipboard operation
LLMPruner copied to clipboard

中文词显示乱码

Open LeiShenVictoria opened this issue 2 years ago • 2 comments

请问tokenizer.json中vocab部分中文显示都是乱码,如何可以正常显示和读取呢? "æ¸¡æ±Ł": 42789

LeiShenVictoria avatar May 30 '23 10:05 LeiShenVictoria

这是byte-level BPE的token,是以字节为粒度做切分,所以表现出来是一个乱码

maojinyang avatar Jun 03 '23 03:06 maojinyang

因为中文的编码是由多个字节构成的,例如 utf8 里的中文大部分由 3 字节构成,而 BPE 拆分的时候是以单个字节为单位拆分的,一个汉字可能在编码层面上被截断成了三份甚至更多,因此词表里无法正常显示中文,但不影响整个 input_ids 数组最终 decode 出来的效果

bswaterb avatar Aug 08 '23 13:08 bswaterb