tingxinli1

Results 4 comments of tingxinli1

> 请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式 我就是通过您提到的这个方法完成的预处理,但因为ext_table相关的几个变量的shape,处理后的tensor很难被简单地输入到huggingface的trainer中。

> 每个样本的输入是不一样的 如果每个样本都分别对应一个输入,那为什么我输入1000条样本会得到一个shape为(188,)的tensor呢?如果每个样本都有对应的ex_table_ids,那一般来说感觉我得到的应该是1000个不同长度的tensor,就像token_ids一样。这一块不是特别理解。感谢您的耐心回复!

把tokenizer_config.json改成下面这样是不是差不多?不过eos好像和pad都是同一个: { "name_or_path": "THUDM/chatglm-6b", "bos_token": "\", "eos_token": "\", "unk_token": "\", "remove_space": false, "do_lower_case": false, "tokenizer_class": "ChatGLMTokenizer", "auto_map": { "AutoTokenizer": [ "tokenization_chatglm.ChatGLMTokenizer", null ] } }