lmdeploy icon indicating copy to clipboard operation
lmdeploy copied to clipboard

高并发推理效果变差的问题

Open Haitons opened this issue 9 months ago • 2 comments

有没有人遇到过资源一定的情况下,线上请求流量过大,造成模型推理效果变差的问题?这个可能是什么原因呢

Haitons avatar Mar 26 '25 07:03 Haitons

什么模型,多大的并发呢?

lvhan028 avatar Apr 01 '25 04:04 lvhan028

不確定是什麼原因, 轉成turbomind後測試過的模型推理能力(特別在tools calling)都肉眼可見的變差。

這是 lm studio gguf qwen3-coder q4 Image

這是lmdeploy Image

也測試過用vllm 測試同一個AWQ model, 結果都是vllm 成功的prompt, 來到lmdeploy就失敗

alexpong0630 avatar Aug 04 '25 10:08 alexpong0630