Qwen2.5 单卡A100和4卡4090推理结果差很多

单卡A100和4卡4090推理结果差很多

Open lxb0425 opened this issue 6 months ago • 5 comments

1 使用qwen2-72B-instruct 训练后再gptq量化成4位 #777 的方式使用A100上做了填充 3 在A100使用vllm启动推理性能没出问题部署在4卡4090上推理效果差很多，甚至还会滔滔不绝，指令理解有问题等咋效果差别这么大是填充方式有问题吗而且填充后和官方的config.json不一样 config.json

Aug 06 '24 01:08 lxb0425

Qwen2.5 Qwen2.5 copied to clipboard

单卡A100和4卡4090推理结果差很多

Qwen2.5
Qwen2.5 copied to clipboard