Qwen2.5
Qwen2.5 copied to clipboard
速度比qwen变慢了很多
Qwen1.5-72b-chat 推理速度 比 Qwen-72b-chat 慢很多,大家有这种情况吗
是不是用的float32?
torch_dtype='auto'. Check the latest readme
same to me, still no output.
这个问题最终大家解决了吗?我们也遇到了同样的问题
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype=torch.bfloat16, use_cache=True) 显示设置为torch_dtype=torch.bfloat16推理速度会快40%左右,显存也会降很多。 不过推理速度依旧很慢