ChatGLM-Finetuning icon indicating copy to clipboard operation
ChatGLM-Finetuning copied to clipboard

关于GLM1 Tokenizer的疑问

Open underwoodnoble opened this issue 1 year ago • 0 comments

SPTokenizer的encode函数和tokenize函数都接受一个add_dummy_prefix参数,该参数的作用是控制是否添加一个虚拟的空白。代码中在add_dummy_prefix为True时什么都不做,而在代码为False时,在前面插入了,进行tokenize之后又把前面两个token丢弃了,这里的逻辑是什么?

underwoodnoble avatar Aug 08 '23 06:08 underwoodnoble