Ziqing Yang

Results 212 comments of Ziqing Yang

`Vocab of the tokenizer: 72377` 72377这个数比较莫名其妙,Chinese-llama和Chinese-alpaca tokenizer的大小只有49953和49954啊

> 简单的说, 在合并后的模型基础上, 再增加词条, 做预训练应该也是可行的吧? 可能和解码策略有关,#245

> 我这里beams=1, 貌似不是这个问题导致的 可以尝试用greedy decoding,或换用llama.cpp试试

建议手写一个greedy decoding代码,或者调试transformers的generate代码,print每一步预测的token的logits,看其中是否有nan, inf 等不合理值

基模型是什么,以及要合并的模型是什么? 请列一下LoRA的配置

报错的内容是检测到合并前后模型的权重相同,因此很有可能进行了无效合并,或LoRA权重等效为0。 目前我也没看出来问题,你可以尝试把报错的那一行assert注释掉再合并,然后手动比较合并前后模型的权重是否相同。

你是基于合并后的chinese-alpaca继续训的,所以用alpaca的tokenizer(vocab size = 49954),应该就是你的llama-7b-hf-chinese中的tokenizer