Ziqing Yang
Ziqing Yang
单张显卡装得下的话,把代码中所有的`"cpu"`和`'cpu'`替换成`"cuda:0"`试试
LoRA部分确实是可交换的 但合并过程还涉及词表扩张,所以要按顺序(32000->49953->49954)来
> 感谢您的回复。我做了下测试,如下所示 >  > 第二个问题的回复好像有些问题 可否用llama.cpp测试问答是否正常?
> > 第一次模型合并我也有这个问题, 然后发现模型合并错了 > > 我这边是合并后的模型直接做测试不会有这个问题,是用自己的新的指令数据集微调后的模型,开始复读 使用了多轮对话数据训练吗
> > > 感谢您的回复。我做了下测试,如下所示 > > >  > > > 第二个问题的回复好像有些问题 > > > > > > 可否用llama.cpp测试问答是否正常? > >  这段代码,如果长度超出max_seq_length,会不会把eos截掉,导致长句子训练的时候没有eos标签? 有这个可能。如果你的训练集里都是长句子,而最大长度又不够,那训练集中的确就会几乎没有eos
可能会生成得停不下来。 只是推测,因为我们也没有用超过截断长度的文本训练过
PyTorch 和 transformers版本多少?用pytorch==1.13 transformers=4.28.1试试?
把缓存`/workspace/fumengen/works/Chinese-LLaMA-Alpaca/data/data_tmp/test_898`删掉让程序重新生成一次试试
> @airaria 重新生成同样的报错 现在不清楚是哪里的问题,建议通过实验准确定位。 比如,用小数据集、单卡有没有问题?