ChatGLM3
ChatGLM3 copied to clipboard
请问chatglm中tokenizer(question)的结果是question+[gMASK]+<sop>,但是如果我自己进行tokenizer,设定为[gMASK]+<sop>+question,两种方式是否都可以。
请问chatglm中tokenizer(question)的结果是question+[gMASK]+
你说的是chat? chat模型不是这样的吧 是user 这些special token组合的啊 你的其他special token呢
我想问的是chatglm1的chat函数,他的user字段为:"[Round {{idx}}]\n\n问:{{content}}\n\n答:",在进行tokenizer(input)后,在结尾加上[gMASK]和sop。我想用自己的tokenizer函数,是否可以encode为[gMASK]+sop+input的形式。[gMASK]为生成模型的标志,sop为开始的标志。
- 对于chatglm3我知道需要<|user|>{{content}}<|assistant|>字段,同样的问题,我应该选择是[gMASK]+sop+<|user|>{{content}}<|assistant|>还是<|user|>{{content}}<|assistant|>[gMASK]+sop
你好,这边比较确定了,对于chatglm-6b而言,应该是input+[gMASK]+sop的形式,而不是[gMASK]+sop+input。请问为什么两者的输出结果会如此不同。
[gMASK]sop<|user|> 是这样啊
想问下我要做简单的指令微调(e.g., 帮我提取标题的人名)非对话,使用的是alpaca格式,tokenizer处理是这样吗:instrution +input +[gMASK] + sop +answer
直接用 chat_template 构建