南孜 comments

Results 3 comments of


                                            南孜

模型选择none量化，指定到特定GPU index，无法正常启动，始终报GPU 0的资源不足。

为什么只有模型量化为none的时候，才会启动vLLM引擎呢，这个逻辑是什么呢？

BUG: NCCL error:

+1，以前的版本vllm可以部署，现在都不可以了，也是报nccl错误。单卡上用vllm可以，但是选择多卡后就出现nccl错误了。 transform可以正常部署（单卡多卡都可以）。 #环境信息如下 >root@41be57132056:/workspace# pip list | grep nccl nvidia-nccl-cu12 2.20.5 root@41be57132056:/workspace# pip list | grep torch torch 2.3.0 torchaudio 2.3.0 torchelastic 0.2.2 torchvision 0.18.0 vector-quantize-pytorch 1.14.24...

BUG: NCCL error:

我好像找到原因了，docker 启动的时候加个参数 --shm-size 20g，如下： > docker run -d \ -e XINFERENCE_MODEL_SRC=modelscope \ -v /data/xinference_llm/.xinference:/root/.xinference \ -v /data/xinference_llm/.cache/huggingface:/root/.cache/huggingface \ -v /data/xinference_llm/.cache/modelscope:/root/.cache/modelscope \ -p 9997:9997 \ --gpus all \ --name xinference...