ChatGLM-Finetuning icon indicating copy to clipboard operation
ChatGLM-Finetuning copied to clipboard

AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam'

Open haonanye opened this issue 2 years ago • 16 comments
trafficstars

deepspeed=0.8.1,一直报这个错

haonanye avatar Apr 07 '23 08:04 haonanye

image

haonanye avatar Apr 07 '23 08:04 haonanye

报错显示,你的cuda是11.2,torch是11.6的,是环境的问题

liucongg avatar Apr 07 '23 08:04 liucongg

报错显示,你的cuda是11.2,torch是11.6的,是环境的问题

是的,换了cuda版本后可以。 image 但是为啥昨晚6点开始运行的,到现在1个epoch还没完。代码就改了个模型路径。V100 PCIE 32G

haonanye avatar Apr 11 '23 00:04 haonanye

我用的A40和A100都很快,不知道V100是不是对半精度不友好,我之前看过类似的贴子

liucongg avatar Apr 11 '23 01:04 liucongg

我用的A40和A100都很快,不知道V100是不是对半精度不友好,我之前看过类似的贴子

找到问题了,加载权重的时候内存不足用的swap。。。扩容解决问题。

haonanye avatar Apr 11 '23 07:04 haonanye

报错显示,你的cuda是11.2,torch是11.6的,是环境的问题

是的,换了cuda版本后可以。 image 但是为啥昨晚6点开始运行的,到现在1个epoch还没完。代码就改了个模型路径。V100 PCIE 32G

你好,请问你有CUDA版本切换的教程吗,我安装新的CUDA版本一直出现问题

z1968357787 avatar Apr 11 '23 07:04 z1968357787

我也遇到了类似的问题,但是我的pytorch版本和CUDA版本都是11.7了 image

z1968357787 avatar Apr 14 '23 02:04 z1968357787

遇到同样的问题,在V100的机器上,具体怎么能解决呢

若跑通,我计划搞个Dockerfile,减少大家因环境带来的困扰

kquark avatar Apr 27 '23 05:04 kquark

遇到同样的问题,在V100的机器上,具体怎么能解决呢

若跑通,我计划搞个Dockerfile,减少大家因环境带来的困扰

同,不知道如何解决

starphantom666 avatar Apr 27 '23 08:04 starphantom666

我这里是4090 ,而且还有多卡无效的问题

starphantom666 avatar Apr 27 '23 08:04 starphantom666

我这里是4090 ,而且还有多卡无效的问题

同4090,同问题,我用cuda11.7支持算力最高8.6,但4090算力是8.9。如果升cuda11.8,对应torchvision却不支持cuda11.8。暂时没有解决。

jason7323 avatar May 05 '23 08:05 jason7323

4090卡,这个问题大家现在解决了吗

haizeiwanglf avatar Aug 07 '23 07:08 haizeiwanglf

4090卡,这个问题大家现在解决了吗

换了个项目,重装了环境,ok了

starphantom666 avatar Aug 07 '23 07:08 starphantom666

请问可以加个好友具体问下做法吗 

吴广硕 @.***

 

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年8月7日(星期一) 下午3:45 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [liucongg/ChatGLM-Finetuning] AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam' (Issue #2)

4090卡,这个问题大家现在解决了吗

换了个项目,重装了环境,ok了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

haizeiwanglf avatar Aug 07 '23 07:08 haizeiwanglf

请问可以加个好友具体问下做法吗  吴广硕 @.***   ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年8月7日(星期一) 下午3:45 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [liucongg/ChatGLM-Finetuning] AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam' (Issue #2) 4090卡,这个问题大家现在解决了吗 换了个项目,重装了环境,ok了 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

换用https://github.com/hiyouga/ChatGLM-Efficient-Tuning 把所有torch包全部卸载,查看自己的cuda版本,选择低于或等于自己cuda版本的最近的最新版本,用官方的conda命令安装。 关于deepspeed,一般来说重新安装最新版就行,如果有问题,降低到合适的版本,我记得有个知乎文章有写

一概重新安装,不要pip install -U

starphantom666 avatar Aug 10 '23 02:08 starphantom666

我也遇到了类似的问题,但是我的pytorch版本和CUDA版本都是11.7了 image

可以尝试 import deepspeed deepspeed.ops.op_builder.CPUAdamBuilder().load()

liucongg avatar Jan 07 '24 09:01 liucongg