想知道tokenizer_config.json里的tokenize_chinese_chars默认为true是出于什么考量吗

Open wiwuwiwu opened this issue 9 months ago • 0 comments

我在使用 bge-small-zh-v1.5 时候发现这个参数默认为true，会导致对输入句子 pre-tokenize 时将所有中文字符前后都加上空格再做下一步处理，然后导致vocab里面相当大部分如 ##你 ##好这样的token完全用不上。我为了用上这些token，微调时将这个参数设为false，导致效果有明显下降。

所以我想知道模型在预训练时也是默认这个参数为true吗，感谢回答

Mar 25 '25 08:03 wiwuwiwu