toolkit4nlp icon indicating copy to clipboard operation
toolkit4nlp copied to clipboard

pretrain后finetune的问题

Open guowhite opened this issue 3 years ago • 2 comments

请问下,自己的脱敏数据数据,利用nezha预训练模型pretrain得到最新的ckpt预训练模型。修改了config 里面vocab_size。再通过build_transformer_model读取预训练模型后进行finetune为啥结果会很低呢,和随机猜测结果差不多。是finetune的时候需要修改vocab.txt吗

guowhite avatar Mar 31 '21 08:03 guowhite

如果只是想修改vocab_size, 直接在build_transformer_model(.., keep_tokens=range(new_vocab_size)),另外就是脱敏数据,tokenizer 需要自己重写后对齐吧,你是不是没对齐?不确定你具体怎么写的

xv44586 avatar Apr 01 '21 02:04 xv44586

好把 我再尝试一下

guowhite avatar Apr 01 '21 02:04 guowhite