Cheng Qian

Results 5 issues of Cheng Qian

请问在训练细节里提到的”第一阶段:冻结transformer参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量。“ 怎么理解? 是训练所有49954个token的embedding吗,还是只训练中文Alpaca新增的token?原版LLaMA的32k token的embedding需不需要冻结?谢谢!

我用预训练脚本可以正常训练llama7B, 但是我换成llama13b的时候报错:NotImplementedError: Cannot copy out of meta tensor; no data! ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 1100648) of binary: 请问是什么问题呢?预训练脚本是否能训练13b的模型?

1. Linly-Chinese-LLaMA-7B没有扩充词表。如果我自己训练了一个sentencepiece词表并和原版词表合并以后,要怎么改动代码扩充embedding进行预训练呢? 2. 是否支持llama 13b的增量预训练呢?

Linly-Chinese-LLaMA-7B没有扩充词表。如果我自己训练了一个sentencepiece词表并和原版词表合并以后,要怎么改动代码扩充embedding进行预训练呢? 是否支持llama 13b的增量预训练呢?

我看```data_utils.py```中step2是padding在右侧的,然而step3特意改成padding在左侧。这里面有什么讲究吗?两者不一致会不会导致reward计算出问题?