ssbuild
ssbuild
CUDA_LAUNCH_BLOCKING=1 python python infer_finetuning.py upload the error log
put all log , let me kown what happen.
try use cpu load , it is just CUDA error: out of memory.
https://github.com/ssbuild/deep_training/blob/cb95857b366cbd3a03c1e8c9fd468ffd8b3f0bda/nlp/models/chatglm/__init__.py#L1172 最终是调用 generate函数,我认为,如果自己微调改动, 其实可以自己写input_ids 生成,调用generate方法不调用chat方法即可,这样更合理。
>  切换优化器试一下
你这个loss 是一开始就是nan吗, 还是训练过程中出现nan , 试一下 adamw
> > 你这个loss 是一开始就是nan吗, 还是训练过程中出现nan , 试一下 adamw > > 好的 一开始就是 nan 我试下adamw, 还有这个./zero_to_fp32.py 文件我怎么没找到在哪里 lora 不需要转换权重了。 全参数开启deepspeed 才需要。
ptv2 权重 也不用转了, trainer 精度改成 32试试
could you provide a weight ?
应该是版本没对上, 更新下代码,安装requirements.txt即可。