zzy347964399 comments

Results 9 comments of


                                            zzy347964399

五万训练数据，lora微调 batchsize为2 目前跑了一个epoch，loss还是停留在2.0附近，没有下降正常吗

1、batch太小了感觉是？5w条数据5w steps的话应该不太够，epoch才为2？试试增大batchsize？ 2、也可以试试tensorboard看下loss的图 3、增大lr，先放到5e^-3看看能不能收敛？能收敛再慢慢调小lr

请问如何读取checkpoint继续训练？

请问您解决了吗？

data_collator有问题？

> 请假一个问题，data_collator里不需要实现attention mask么？大佬您好，请问您解决了吗？我也想不明白

尝试在自己的数据集上使用LORA微调但是报错

# setup peft peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, inference_mode=False, r=finetune_args.lora_rank, lora_alpha=32, lora_dropout=0.1, ) model = get_peft_model(model, peft_config)

为什么转换成{context:"",target:""}的格式？是哪里定义的吗？

> 您好，感谢分享 > > 原来alpaca的格式是 instruction,input,output, 为什么转换了context,target的格式呢？我看train的代码也没解析这个格式，是把这个格式直接train了么？为什么是这个格式呢？ > > 我现在对finetune的格式一头雾水。 > > 谢谢因为在convertxxxxxx的那个py里面定义了，把json转成jsonl格式

infer报错

> 同遇到这个问题，有解决吗？把`model = AutoModel.from_pretrained("./chatglm-6b", trust_remote_code=True, load_in_8bit=True, device_map='auto')` 这个load_in_8bit改成true，你看下自己是不是false

加载checkpoint里面的adapter进行预测，生成的结果跟输入完全一样

> 我之前也是这个问题，弄了半天终于弄好了，方法是等模型跑完，加载checkpoint文件外的内容就好了

训练时模型出错

你模型路径写错了吗？

建议代码更新一下

> 训练也是有问题的，v100显卡下，无法同时开启load_in_8bit 和 fp16 你训练的时候把load_in_8bit=True改成false