ms-swift npu 推理和部署怎么设置多卡

我的测试脚本：

NPROC_PER_NODE=8 \
ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
HCCL_SOME_VARIABLE=value
swift infer \
    --model_type '/data2/dxc/Qwen1.5-32B-Chat' \
    --load_args_from_ckpt_dir true \
    --ckpt_dir '/data2/dxc/Qwen1.5-32B-Chat/v17-20240920-141406/checkpoint-6/' \
    --load_dataset_config true \
    --tensor_parallel_size 8 \
    --merge_lora false \
    --model_kwargs '{"device_map": ["npu:0", "npu:1", "npu:2", "npu:3", "npu:4", "npu:5", "npu:6", "npu:7"]}' \
    --dataset '/data2/dxc/blossom-math-v2/transformed_dataset.jsonl#100'

运行之后显示device_count:8，但是model_kwargs: {'device_map': 'npu:0'}

没找到Swift infer和Swift deploy中有关NPU的多显卡设置参数

Sep 20 '24 09:09 klaus-duan

我也有同样的问题，虽然挂了4张卡，但是最后只用了npu:0然后内存不够了

Oct 04 '24 12:10 feria-tu

我也有同样的问题，虽然挂了4张卡，但是最后只用了npu:0然后内存不够了

用swift infer里的merge-lora功能，合并出来的权重再用其他框架推理，比如mindie

Oct 04 '24 14:10 klaus-duan

好吧好吧感谢黄大佬说等半个月swift3.0出来能支持多卡推理

Oct 04 '24 15:10 feria-tu

好吧好吧感谢黄大佬说等半个月swift3.0出来能支持多卡推理

https://klaus-duan.github.io/2024/09/28/利用swift和mindie在多卡NPU上微调-推理-部署大模型/

Oct 08 '24 09:10 klaus-duan

好吧好吧感谢黄大佬说等半个月swift3.0出来能支持多卡推理

https://klaus-duan.github.io/2024/09/28/利用swift和mindie在多卡NPU上微调-推理-部署大模型/

大佬，链接挂了，可以重新发一下嘛

Feb 18 '25 02:02 jh11503180

好吧好吧感谢黄大佬说等半个月swift3.0出来能支持多卡推理

https://klaus-duan.github.io/2024/09/28/利用swift和mindie在多卡NPU上微调-推理-部署大模型/

大佬，链接挂了，可以重新发一下嘛

我把地址又改回来了，你重新试一下。最新版的swift还是不能多卡推理吗？我也好久没用了

Feb 19 '25 09:02 klaus-duan

我也有同样的问题，虽然挂了4张卡，但是最后只用了npu:0然后内存不够了

用swift infer里的merge-lora功能，合并出来的权重再用其他框架推理，比如mindie

请教下，目前 merge lora 后的 hf 权重是可以被 mindie 直接推理的对吧？谢谢。

Apr 19 '25 15:04 thincal

可以的

Apr 19 '25 15:04 Jintao-Huang

--device_map auto

我的测试脚本：

NPROC_PER_NODE=8 \
ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
HCCL_SOME_VARIABLE=value
swift infer \
    --model_type '/data2/dxc/Qwen1.5-32B-Chat' \
    --load_args_from_ckpt_dir true \
    --ckpt_dir '/data2/dxc/Qwen1.5-32B-Chat/v17-20240920-141406/checkpoint-6/' \
    --load_dataset_config true \
    --tensor_parallel_size 8 \
    --merge_lora false \
    --model_kwargs '{"device_map": ["npu:0", "npu:1", "npu:2", "npu:3", "npu:4", "npu:5", "npu:6", "npu:7"]}' \
    --dataset '/data2/dxc/blossom-math-v2/transformed_dataset.jsonl#100'

运行之后显示device_count:8，但是model_kwargs: {'device_map': 'npu:0'}

没找到Swift infer和Swift deploy中有关NPU的多显卡设置参数

Apr 19 '25 15:04 Jintao-Huang