南孜

Results 3 comments of 南孜

为什么只有模型量化为none的时候,才会启动vLLM引擎呢,这个逻辑是什么呢?

+1, 以前的版本vllm可以部署,现在都不可以了, 也是报nccl错误。 单卡上用vllm可以,但是选择多卡后就出现nccl错误了。 transform可以正常部署(单卡多卡都可以)。 #环境信息如下 >root@41be57132056:/workspace# pip list | grep nccl nvidia-nccl-cu12 2.20.5 root@41be57132056:/workspace# pip list | grep torch torch 2.3.0 torchaudio 2.3.0 torchelastic 0.2.2 torchvision 0.18.0 vector-quantize-pytorch 1.14.24...

我好像找到原因了,docker 启动的时候加个参数 --shm-size 20g, 如下: > docker run -d \ -e XINFERENCE_MODEL_SRC=modelscope \ -v /data/xinference_llm/.xinference:/root/.xinference \ -v /data/xinference_llm/.cache/huggingface:/root/.cache/huggingface \ -v /data/xinference_llm/.cache/modelscope:/root/.cache/modelscope \ -p 9997:9997 \ --gpus all \ --name xinference...