Ziqing Yang comments

Results 212 comments of


                                            Ziqing Yang

如何用GPU合并Plus模型

单张显卡装得下的话，把代码中所有的`"cpu"`和`'cpu'`替换成`"cuda:0"`试试

请教一下，在合并Chinese-Alpaca-Plus模型的时候，为什么lora模型参数不能颠倒顺序

LoRA部分确实是可交换的但合并过程还涉及词表扩张，所以要按顺序（32000->49953->49954）来

删除--modules_to_save ${modules_to_save} \ 不起作用

感谢提醒🙏

继续指令微调Alpaca生产内容重复

> 感谢您的回复。我做了下测试，如下所示 > ![image](https://user-images.githubusercontent.com/38728769/239798126-bd51af78-b804-40ef-b2c3-0106d0461c51.png) > 第二个问题的回复好像有些问题可否用llama.cpp测试问答是否正常？

继续指令微调Alpaca生产内容重复

> > 第一次模型合并我也有这个问题, 然后发现模型合并错了 > > 我这边是合并后的模型直接做测试不会有这个问题，是用自己的新的指令数据集微调后的模型，开始复读使用了多轮对话数据训练吗

> > > 感谢您的回复。我做了下测试，如下所示 > > > ![image](https://user-images.githubusercontent.com/38728769/239798126-bd51af78-b804-40ef-b2c3-0106d0461c51.png) > > > 第二个问题的回复好像有些问题 > > > > > > 可否用llama.cpp测试问答是否正常？ > > ![image](https://user-images.githubusercontent.com/38728769/240785776-0adce31e-d5c4-4dcc-a804-1f48482fa1e6.png) 这段代码，如果长度超出max_seq_length，会不会把eos截掉，导致长句子训练的时候没有eos标签？有这个可能。如果你的训练集里都是长句子，而最大长度又不够，那训练集中的确就会几乎没有eos

Ziqing Yang

如何用GPU合并Plus模型

请教一下，在合并Chinese-Alpaca-Plus模型的时候，为什么lora模型参数不能颠倒顺序

删除--modules_to_save ${modules_to_save} \ 不起作用

继续指令微调Alpaca生产内容重复

继续指令微调Alpaca生产内容重复

继续指令微调Alpaca生产内容重复

继续指令微调Alpaca生产内容重复

预训练llama 13b报错 NotImplementedError: Cannot copy out of meta tensor; no data!

deepspeed训练报错

deepspeed训练报错