Qwen2.5
Qwen2.5 copied to clipboard
单卡A100和4卡4090推理结果差很多
1 使用qwen2-72B-instruct 训练后再gptq量化成4位
#777 的方式使用A100上做了填充
3 在A100使用vllm启动推理性能没出问题 部署在4卡4090上推理效果差很多,甚至还会滔滔不绝,指令理解有问题等
咋效果差别这么大 是填充方式有问题吗 而且填充后和官方的config.json不一样
config.json