高并发推理效果变差的问题

Open Haitons opened this issue 9 months ago • 2 comments

有没有人遇到过资源一定的情况下，线上请求流量过大，造成模型推理效果变差的问题？这个可能是什么原因呢

Mar 26 '25 07:03 Haitons

什么模型，多大的并发呢？

Apr 01 '25 04:04 lvhan028

不確定是什麼原因, 轉成turbomind後測試過的模型推理能力(特別在tools calling)都肉眼可見的變差。

這是 lm studio gguf qwen3-coder q4

這是lmdeploy

也測試過用vllm 測試同一個AWQ model, 結果都是vllm 成功的prompt, 來到lmdeploy就失敗

Aug 04 '25 10:08 alexpong0630