Ziqing Yang
Ziqing Yang
看起来你的tokenizer并不适配,tokenizer的大小并不是49953或49954
`Vocab of the tokenizer: 72377` 72377这个数比较莫名其妙,Chinese-llama和Chinese-alpaca tokenizer的大小只有49953和49954啊
> 简单的说, 在合并后的模型基础上, 再增加词条, 做预训练应该也是可行的吧? 可能和解码策略有关,#245
> 我这里beams=1, 貌似不是这个问题导致的 可以尝试用greedy decoding,或换用llama.cpp试试
建议手写一个greedy decoding代码,或者调试transformers的generate代码,print每一步预测的token的logits,看其中是否有nan, inf 等不合理值
基模型是什么,以及要合并的模型是什么? 请列一下LoRA的配置
adapter_config.json的内容可以发出来看一下吗
报错的内容是检测到合并前后模型的权重相同,因此很有可能进行了无效合并,或LoRA权重等效为0。 目前我也没看出来问题,你可以尝试把报错的那一行assert注释掉再合并,然后手动比较合并前后模型的权重是否相同。
你是基于合并后的chinese-alpaca继续训的,所以用alpaca的tokenizer(vocab size = 49954),应该就是你的llama-7b-hf-chinese中的tokenizer