Linly
Linly copied to clipboard
使用zero3以后的模型加载问题
-
结合此项目的示例方法成功进行预训练、增量训练,推理(generate_chatllama.py放不下,使用的generate_lm_deepspeed.py)环境应该是没有问题的。
-
由于保存的模型都是zero_pp_rank_XX_mp_rank_XX_optim_states.pt和zero_pp_rank_XX_mp_rank_XX_model_states.pt这种格式的,无法利用训练后的模型进行 推理 、增量训练。利用保存模型路径下的脚本zero_to_fp32.py进行转换python zero_to_fp32.py . pytorch_model.bin
-
这里使用的是7B的模型,cpu内存从16G增长到90多G,之后进程就死掉了。目前看着像是cpu内存不够导致的,模型保存文件-best是70多G,请问有什么方法能够转换成bin格式的模型么?
-
同时疑惑,现在可能是自己cpu内存不够导致的进程kill,如果之后用13B 30B 65B的模型(7B保存的模型75G,并且128G的cpu内存都不够用),难道要一直增加cpu内存来解决这个问题嘛。有没有大佬可以可以帮忙解决这个问题,感谢!
我们近两天会更新推理方法,大幅度提升速度及降低开销,请关注首页更新
发件人: hepj987 @.> 发送时间: Monday, April 17, 2023 8:10:33 PM 收件人: ydli-ai/Chinese-ChatLLaMA @.> 抄送: Subscribed @.***> 主题: [ydli-ai/Chinese-ChatLLaMA] 使用zero3以后的模型加载问题 (Issue #30)
-
结合此项目的示例方法成功进行预训练、增量训练,推理(generate_chatllama.py放不下,使用的generate_lm_deepspeed.py)环境应该是没有问题的。
-
由于保存的模型都是zero_pp_rank_XX_mp_rank_XX_optim_states.pt和zero_pp_rank_XX_mp_rank_XX_model_states.pt这种格式的,无法利用训练后的模型进行 推理 、增量训练。利用保存模型路径下的脚本zero_to_fp32.py进行转换python zero_to_fp32.py . pytorch_model.bin
-
这里使用的是7B的模型,cpu内存从16G增长到90多G,之后进程就死掉了。目前看着像是cpu内存不够导致的,模型保存文件-best是70多G,请问有什么方法能够转换成bin格式的模型么?
-
同时疑惑,现在可能是自己cpu内存不够导致的进程kill,如果之后用13B 30B 65B的模型(7B保存的模型75G,并且128G的cpu内存都不够用),难道要一直增加cpu内存来解决这个问题嘛。有没有大佬可以可以帮忙解决这个问题,感谢!
― Reply to this email directly, view it on GitHubhttps://github.com/ydli-ai/Chinese-ChatLLaMA/issues/30, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AE3SPVYV2DSPVW27BLTBKU3XBUXLTANCNFSM6AAAAAAXBC6KAU. You are receiving this because you are subscribed to this thread.Message ID: @.***>
-
看到你们新的更新了,但由于我们用的是AMD的卡,所以目前还无法使用新版本的推理方式,目前使用的还是旧版的deepspeed zero3的方式进行的推理,期待你们对cuda外的支持。
-
之前模型转换的问题确实是由于内存不够导致的,zero_pp_rank_XX_mp_rank_XX_到bin格式的转换代码里也有可以优化的地方,不需要加载全部的文件进行转换,加载新文件时释放旧文件可以减小缓存压力。