zzhaowendao
zzhaowendao
ascend上多卡卡死的问题还是没有彻底解决。 #3513 修复了图模式的bug。但是多卡卡死对于eager模式和图模式都仍然存在。 我在cann8.1.beta1的环境下,测试了qwen2.5-3b模型,对于eager模式和图模式,都会大概率会卡死。单卡则eager模式和图模式都正常。 python -m lmdeploy serve api_server qwen2.5-3b --backend pytorch --device ascend --tp 2
@JackWeiw 按照你的方法,在310P单机多卡的环境下进行测试,结果如下: 环境: ascend 300v pro双卡 cann 8.1.RC1 https://github.com/DeepLink-org/dlinfer/pull/219 之后的dlinfer,并且增加了https://github.com/DeepLink-org/dlinfer/pull/225 #227的补丁。 最新lmdepoly export LMDEPLOY_EXECUTOR_BACKEND=ray export ASCEND_RANK_TABLE_FILE_PATH=ranktable.json python -m lmdeploy serve api_server qwen3-8b --backend pytorch --device ascend --tp 2 启动起来并无报错。 开始聊天终端报错如下:...
@jinminxi104 输出atb和dicp的log,输出一对信息,报错和之前一样。估计大概率是芯片的问题。我换成i duo测试吧。 @JackWeiw 我这边cann的版本是8.1.RC1,对应版本的kernel和nnal的包都安装了,应该没问题吧?