部署了Qwen1.5-32B-Chat-GPTQ-Int4可以运行,但出现了CUDA extension not installed,推理速度很慢
同问.
qwen1时遇到过这个问题 把auto-gptq,optimum换个版本就可以了
确实特别慢,如何解决?
感觉只能堆配置了.
重新安装auto-gptq,optimum,注意auto-gptq根据你的cuda版本选择对应的安装方式
32B-Chat-AWQ 在A100 40G上跑 回复差不多相同的内容,时间大约是20秒, 14B-Chat-AWQ 在4090 24G上跑, 回复差不多6秒内.
是不是我需要做什么配置才能让32B-Chat-AWQ 推理速度快一些?
for the installation of auto-gptq, we advise you to install from source (git clone the repo and run pip install -e .) or you will meet "CUDA not installed" issue.
Qwen1.5-14B-Chat-GPTQ-Int4 实测:transformers==4.38.2 auto-gptq=0.6.0 速度没问题
32B-Chat-AWQ回复慢,vllm4部署,有什么解决办法吗
Qwen1.5-14B-Chat-GPTQ-Int4 实测:transformers==4.38.2 auto-gptq=0.6.0 速度没问题
我也遇到相同的问题,原来的auto-gptq版本为0.7.0,降级为0.6.0后问题解决
为何不是用AWQ呢 精度要比GPTQ高一丢丢 VLLM部署很容易
为何不是用AWQ呢 精度要比GPTQ高一丢丢 VLLM部署很容易
这个问题你得问问官方了
确实特别慢,如何解决?
这是我的requirements.txt内容,你参考下,我跑qwen/Qwen1___5-32B-Chat-GPTQ-Int4速度没问题 requirements.txt
感谢!用了你的配置快多了