中文词显示乱码

Open LeiShenVictoria opened this issue 2 years ago • 2 comments

请问tokenizer.json中vocab部分中文显示都是乱码，如何可以正常显示和读取呢？ "æ¸¡æ±Ł": 42789

May 30 '23 10:05 LeiShenVictoria

这是byte-level BPE的token，是以字节为粒度做切分，所以表现出来是一个乱码

Jun 03 '23 03:06 maojinyang

因为中文的编码是由多个字节构成的，例如 utf8 里的中文大部分由 3 字节构成，而 BPE 拆分的时候是以单个字节为单位拆分的，一个汉字可能在编码层面上被截断成了三份甚至更多，因此词表里无法正常显示中文，但不影响整个 input_ids 数组最终 decode 出来的效果

Aug 08 '23 13:08 bswaterb