ChatGLM2-6B
ChatGLM2-6B copied to clipboard
[BUG/Help] 模型微调时的输入格式是什么?
Current Behavior
(1) ChatGLM我采用的是 "输入[gMASK] <s>输出</s>",ChatGLM2是不是不再需要'[gMask]',甚至不需要<s>? 能给一个模板供参考么?比如说我希望有"instruct: 需求; input: 输入信息; output: 输出",应该如何设计模板以契合原本的训练过程? (2) 另外,目前模型通过tokenizer.bos_token_id无法调用到bos(其他特殊符类似),而实际上词表中是有bos的,可以麻烦合并一下么? 谢谢!
Expected Behavior
No response
Steps To Reproduce
print(tokenizer.get_vocab()['<s>']) print(tokenizer.bos_token_id)
把tokenizer_config.json改成下面这样是不是差不多?不过eos好像和pad都是同一个: { "name_or_path": "THUDM/chatglm-6b", "bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "remove_space": false, "do_lower_case": false, "tokenizer_class": "ChatGLMTokenizer", "auto_map": { "AutoTokenizer": [ "tokenization_chatglm.ChatGLMTokenizer", null ] } }
同问