kailly_76a comments

Results 15 comments of


                                            kailly_76a

部署qwen2.5-vl-7b-instrcut模型，5并发，单个请求包含20张图片，xinference会堵塞住，而单独使用底层推理引擎则不会

卡住的现象是，部署的两张显卡，一张利用率一直为100，另一个是0，cpu占用也是100，ctrl+c关闭xinference后，占用率100的显卡显存释放不了。奇怪的是同样的请求，流式正常，非流式会卡住，这俩按理说调用的是vllm的同一个接口，参数也一样的

部署qwen2.5-vl-7b-instrcut模型，5并发，单个请求包含20张图片，xinference会堵塞住，而单独使用底层推理引擎则不会

> 这么怪异，看着 vllm 进程是不是僵尸了？占用GPU和CPU的进程一开始是running，然后变成sleeping

部署qwen2.5-vl-7b-instrcut模型，5并发，单个请求包含20张图片，xinference会堵塞住，而单独使用底层推理引擎则不会

> 这么怪异，看着 vllm 进程是不是僵尸了？ @qinxuye 这个你们有计划排查下吗，还挺容易出现的，只要是非流式，并发场景就会出现

部署qwen2.5-vl-7b-instrcut模型，5并发，单个请求包含20张图片，xinference会堵塞住，而单独使用底层推理引擎则不会

@qinxuye 这个问题有复现嘛，我看现在的最新版本好像没有解决这个问题

使用xinfernece启动DeepSeek-R1-Distill-Qwen-14B时候，通过程序调用接口，发现缺少<think>起始符号，有</think>

> > 我看了下，deepseek 相关模型的 chat template 确实 11 天前更新过。见：https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B/commit/3865e12a1eb7cbd641ab3f9dfc28c588c6b0c1e9 > > 目前 Xinference 会接管模型的 chat template。我们会看下是否需要更新 xinf 的部分。 > > 现在有什么方式可以解决吗，缺少了导致加上reasoning_content True也没生效。 @George-TQL 你好，请问这个解决了吗