Ziqing Yang

Results 212 comments of Ziqing Yang

单张显卡装得下的话,把代码中所有的`"cpu"`和`'cpu'`替换成`"cuda:0"`试试

LoRA部分确实是可交换的 但合并过程还涉及词表扩张,所以要按顺序(32000->49953->49954)来

> 感谢您的回复。我做了下测试,如下所示 > ![image](https://user-images.githubusercontent.com/38728769/239798126-bd51af78-b804-40ef-b2c3-0106d0461c51.png) > 第二个问题的回复好像有些问题 可否用llama.cpp测试问答是否正常?

> > 第一次模型合并我也有这个问题, 然后发现模型合并错了 > > 我这边是合并后的模型直接做测试不会有这个问题,是用自己的新的指令数据集微调后的模型,开始复读 使用了多轮对话数据训练吗

> > > 感谢您的回复。我做了下测试,如下所示 > > > ![image](https://user-images.githubusercontent.com/38728769/239798126-bd51af78-b804-40ef-b2c3-0106d0461c51.png) > > > 第二个问题的回复好像有些问题 > > > > > > 可否用llama.cpp测试问答是否正常? > > ![image](https://user-images.githubusercontent.com/38728769/240785776-0adce31e-d5c4-4dcc-a804-1f48482fa1e6.png) 这段代码,如果长度超出max_seq_length,会不会把eos截掉,导致长句子训练的时候没有eos标签? 有这个可能。如果你的训练集里都是长句子,而最大长度又不够,那训练集中的确就会几乎没有eos

可能会生成得停不下来。 只是推测,因为我们也没有用超过截断长度的文本训练过

PyTorch 和 transformers版本多少?用pytorch==1.13 transformers=4.28.1试试?

把缓存`/workspace/fumengen/works/Chinese-LLaMA-Alpaca/data/data_tmp/test_898`删掉让程序重新生成一次试试

> @airaria 重新生成同样的报错 现在不清楚是哪里的问题,建议通过实验准确定位。 比如,用小数据集、单卡有没有问题?