FlagEmbedding
FlagEmbedding copied to clipboard
想知道tokenizer_config.json里的tokenize_chinese_chars默认为true是出于什么考量吗
我在使用 bge-small-zh-v1.5 时候发现这个参数默认为true,会导致对输入句子 pre-tokenize 时将所有中文字符前后都加上空格再做下一步处理,然后导致vocab里面相当大部分如 ##你 ##好 这样的token完全用不上。我为了用上这些token,微调时将这个参数设为false,导致效果有明显下降。
所以我想知道模型在预训练时也是默认这个参数为true吗,感谢回答