Yanceye
Yanceye
你把transformers的版本降降,按它要求的来。
Thank you ! I have received your e-mail.Best regards!
> > 请问你压测的是原生还是vllm的,我发现使用vllm推理,会比原生慢很多 > > 我是vllm推理的,推理非常快啊,一般transformer推理会慢一些吧 我用vllm推理1024*1024的图,用的vllm 0.11.0,推理一张图要20s,这太慢了,请问你是怎么配置的
> 我把pytorch降级到2.8后,速度快了很多,你试试 > […](#) vllm推理有开启flash-attention吗?我用的v100卡不支持这个库,不知道是不是这个原因推理慢,我用的qwen3-vl-8b推理一张图要将近20s了。我看有的资讯上说Qwen3-VL-30B在 RTX 4090(24GB)总体响应在4秒内