kailly_76a
kailly_76a
卡住的现象是,部署的两张显卡,一张利用率一直为100,另一个是0,cpu占用也是100,ctrl+c关闭xinference后,占用率100的显卡显存释放不了。奇怪的是同样的请求,流式正常,非流式会卡住,这俩按理说调用的是vllm的同一个接口,参数也一样的
> 这么怪异,看着 vllm 进程是不是僵尸了? 占用GPU和CPU的进程一开始是running,然后变成sleeping
> 这么怪异,看着 vllm 进程是不是僵尸了? @qinxuye 这个你们有计划排查下吗,还挺容易出现的,只要是非流式,并发场景就会出现
@qinxuye 这个问题有复现嘛,我看现在的最新版本好像没有解决这个问题
> > 我看了下,deepseek 相关模型的 chat template 确实 11 天前更新过。见:https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B/commit/3865e12a1eb7cbd641ab3f9dfc28c588c6b0c1e9 > > 目前 Xinference 会接管模型的 chat template。我们会看下是否需要更新 xinf 的部分。 > > 现在有什么方式可以解决吗,缺少了导致加上reasoning_content True也没生效。 @George-TQL 你好,请问这个解决了吗