zzy347964399

Results 9 comments of zzy347964399

1、batch太小了感觉是?5w条数据5w steps的话应该不太够,epoch才为2? 试试增大batchsize? 2、也可以试试tensorboard看下loss的图 3、增大lr,先放到5e^-3看看能不能收敛?能收敛再慢慢调小lr

> 请假一个问题,data_collator里不需要实现attention mask么? 大佬您好,请问您解决了吗?我也想不明白

# setup peft peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, inference_mode=False, r=finetune_args.lora_rank, lora_alpha=32, lora_dropout=0.1, ) model = get_peft_model(model, peft_config)

> 您好,感谢分享 > > 原来alpaca的格式是 instruction,input,output, 为什么转换了context,target的格式呢?我看train的代码也没解析这个格式, 是把这个格式直接train了么?为什么是这个格式呢? > > 我现在对finetune的格式一头雾水。 > > 谢谢 因为在convertxxxxxx的那个py里面定义了,把json转成jsonl格式

> 同遇到这个问题,有解决吗? 把`model = AutoModel.from_pretrained("./chatglm-6b", trust_remote_code=True, load_in_8bit=True, device_map='auto')` 这个load_in_8bit改成true,你看下自己是不是false

> 我之前也是这个问题,弄了半天终于弄好了,方法是等模型跑完,加载checkpoint文件外的内容就好了

你模型路径写错了吗?

> 训练也是有问题的,v100显卡下,无法同时开启load_in_8bit 和 fp16 你训练的时候把load_in_8bit=True改成false