Ziqing Yang

Results 212 comments of Ziqing Yang

可训练参数都正常。但你的模型总参数量和我测出来的不一致,llama-7b我这边是大概是6.9B,而你那显示的是6.6B

可以参考llama.cpp 和 llamachat中的多轮对话方式

我们没有做对比实验,但至少在编码效率上优于原版LLaMA,可以参见我们的技术报告。至于模型效果问题,可以通过预训练来弥补,我们通过训练损失粗略估计认为在中文上的效果应不会明显低于原版经过同样语料训练的效果。

没有问题。因为保存的ckpt中就只保存了lora,没有这些权重。

See the discussion here #264

扩充后注意只要resize都可以训练。 如果不训练embed_tokens和lm_head,那新token是未经训练的,不清楚在你们的任务上影响有多大。 多轮对话的格式可以参考[gradio_demo.py](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/gradio_demo.py)中带有历史对话数据构造方式,总体来说就是把历史都拼起来。

> > 扩充后注意只要resize都可以训练。 如果不训练embed_tokens和lm_head,那新token是未经训练的,不清楚在你们的任务上影响有多大。 > > 多轮对话的格式可以参考[gradio_demo.py](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/gradio_demo.py)中带有历史对话数据构造方式,总体来说就是把历史都拼起来。 > > 好的,谢谢。13B如果开启embed_tokens和lm_head训练的话,单卡需要多少显存呢?(我现在就测试一批10MB的语料)之前不开embed_tokens和lm_head的时候是40GB,开了以后一张48GB的A40就直接爆显存了。 如果有多卡可以借助deepspeed降显存,A40是可以跑的;单卡未测试过。另外你可以尝试更短的长度

默认加载dataset_dir下所有以txt结尾的文件。从报错信息看,并没有找到这些文件

请删除`--modules_to_save ${modules_to_save} \`和`--gradient_checkpointing \`两行(而不是注释掉),再试一下吧