Ziqing Yang comments

Results 212 comments of


                                            Ziqing Yang

模型第二阶段预训练问题

可训练参数都正常。但你的模型总参数量和我测出来的不一致，llama-7b我这边是大概是6.9B，而你那显示的是6.6B

模型融合之后，采用llama.cpp 进行推理，输入中文后按回车没有反应，光标仍然在当前这行

可以去llama.cpp那边问一下

扩充词表问题

我们没有做对比实验，但至少在编码效率上优于原版LLaMA，可以参见我们的技术报告。至于模型效果问题，可以通过预训练来弥补，我们通过训练损失粗略估计认为在中文上的效果应不会明显低于原版经过同样语料训练的效果。

通过last_checkpoint resume继续训练时的missing keys in checkpoint问题

没有问题。因为保存的ckpt中就只保存了lora，没有这些权重。

扩充后注意只要resize都可以训练。如果不训练embed_tokens和lm_head，那新token是未经训练的，不清楚在你们的任务上影响有多大。多轮对话的格式可以参考[gradio_demo.py](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/gradio_demo.py)中带有历史对话数据构造方式，总体来说就是把历史都拼起来。

请教关于继续预训练领域知识的问题

> > 扩充后注意只要resize都可以训练。如果不训练embed_tokens和lm_head，那新token是未经训练的，不清楚在你们的任务上影响有多大。 > > 多轮对话的格式可以参考[gradio_demo.py](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/gradio_demo.py)中带有历史对话数据构造方式，总体来说就是把历史都拼起来。 > > 好的，谢谢。13B如果开启embed_tokens和lm_head训练的话，单卡需要多少显存呢？（我现在就测试一批10MB的语料）之前不开embed_tokens和lm_head的时候是40GB，开了以后一张48GB的A40就直接爆显存了。如果有多卡可以借助deepspeed降显存，A40是可以跑的；单卡未测试过。另外你可以尝试更短的长度

运行预训练脚本发生AttributeError

默认加载dataset_dir下所有以txt结尾的文件。从报错信息看，并没有找到这些文件

Lora训练时节省显存删除--modules_to_save ${modules_to_save} \和--gradient_checkpointing \依旧报错

请删除`--modules_to_save ${modules_to_save} \`和`--gradient_checkpointing \`两行（而不是注释掉），再试一下吧

Ziqing Yang

模型第二阶段预训练问题

模型融合之后，采用llama.cpp 进行推理，输入中文后按回车没有反应，光标仍然在当前这行

有没有多轮对话的脚本代码

扩充词表问题

通过last_checkpoint resume继续训练时的missing keys in checkpoint问题

损失值大小

请教关于继续预训练领域知识的问题

请教关于继续预训练领域知识的问题

运行预训练脚本发生AttributeError

Lora训练时节省显存删除--modules_to_save ${modules_to_save} \和--gradient_checkpointing \依旧报错