chatglm_finetuning icon indicating copy to clipboard operation
chatglm_finetuning copied to clipboard

大佬好,请问下数据构造中的特殊token

Open IamRoBota opened this issue 2 years ago • 2 comments

看到在TokenTruncation.process()中构造input_ids时,拼完a和b之后,在句尾添加了两个Screenshot 2023-04-29 at 23 21 50

请问: 1.为什么需要两个呢,一个会怎么样? 2.如果我在句子a中需要一个特殊token来分隔一下a中的上下两句,请问选哪个好一些呢?我看ChatGLM tokenizer的特殊token只有<eop> <pad> <sop> <unk>和[MASK]

感谢🙏

IamRoBota avatar Apr 29 '23 15:04 IamRoBota

一个两个都可以,只是加强下结束符。

ssbuild avatar Apr 30 '23 07:04 ssbuild

一个

谢谢大佬,那请问第二个问题呢?不用换行符的话,更好一点吗?

IamRoBota avatar Apr 30 '23 08:04 IamRoBota