weilan
weilan
@airaria 请问你这里提到的lm head是指? 这部分预训练的代码有计划开源吗? 
> 我也遇到这个问题了,根本原因在于这一份代码的版本和开源的chatglm没有对齐的所导致的,解决办法也很简答,参照官方ptuning的数据预处理方法改就行了,简单加一行就行input_ids = tokenizer.build_inputs_with_special_tokens(a_ids, b_ids) > > reference https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/main.py#L217 @DBtxy 请问具体在那个脚本中加入input_ids = tokenizer.build_inputs_with_special_tokens(a_ids, b_ids)这句话,tokenization_chatglm.py吗
> > > 我也遇到这个问题了,根本原因在于这一份代码的版本和开源的chatglm没有对齐的所导致的,解决办法也很简答,参照官方ptuning的数据预处理方法改就行了,简单加一行就行input_ids = tokenizer.build_inputs_with_special_tokens(a_ids, b_ids) > > > reference https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/main.py#L217 > > > > > > @DBtxy 请问具体在那个脚本中加入input_ids = tokenizer.build_inputs_with_special_tokens(a_ids, b_ids)这句话,tokenization_chatglm.py吗 > > 在tokenize_dataset_rows.py 文件里面 改一下preprocess函数就行了,我把我的代码复制给你,可以参考一下 > >...