逝夜长歌 comments

Results 7 comments of


                                            逝夜长歌

用2080TI 22G单张显卡跑 qwen 1.5 32B-INT4模型没有成功

我单卡24G 占用21G, 你这个按理说跑得起来

【onnx模型】关于bge-reranker-v2-m3模型转onnx模型相关对比情况讨论

> 请问一下，哪有能有bge-reranker-v2-m3转onnx和onnxruntime运行转换之后的模型的相关脚本呢？可以使用optimum-cli

[Feature] 对api_server的一些建议

> ### Motivation > 我用lmdeploy serve api_server起了一个推理服务InternVL2-26B，发现了以下问题： 1、设置stream=true时，发现每一条都会有"usage":null的内容，生成最后一个token时，"usage"并没有具体的输入和输出tokens信息，这样的话就没有办法统计流式接口的tokens，我理解这不是标准的openai格式，请各位大佬关注修一下。 2、压测接口时，逐渐增加并发数，发现显存占用一直在变多，不请求也没有清除多余显存占用，建议增加每次请求完成后清理显存占用的操作。 3、服务部署成功后，内存似乎没有释放，free -m 发现有大量的内存在buff/cache里，请各位大佬关注一下。 ![Snipaste_2024-07-26_15-11-05](https://private-user-images.githubusercontent.com/65438006/352432165-4600488b-d919-45a3-82c5-735602cecf9a.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjE5ODE4NDMsIm5iZiI6MTcyMTk4MTU0MywicGF0aCI6Ii82NTQzODAwNi8zNTI0MzIxNjUtNDYwMDQ4OGItZDkxOS00NWEzLTgyYzUtNzM1NjAyY2VjZjlhLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA3MjYlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNzI2VDA4MTIyM1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWE2YmZjYWI3NmU1MGE0NDk5ZGEzMTg4Y2Y4NmI4ODA0YWNkMmUzYjNlZGNkMTA4NjAzNjQ2ZTU3ZTc3NWRhZWMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.nyDAw8k4VcQeDmhMI-PSXn1JC0rvVV1QlfuqdHqaa74) > > ### Related resources > _No response_ > > ### Additional context > _No response_ 1....

Add prefix cache stats to usage

> 大家好，鉴于我们正处于临界点#2090，我将推迟此 PR，直到#2090合并为止，对于给您带来的不便，我深表歉意这个有计划发布吗？

[Docs] lmdeploy是否支持deepseek-r1部署

> 第二次问你好吗，回答说自己是DeepSeek-R1-Lite-Preview： > > ``` > 是否深度思考（0代表否，1代表是）0 > 请输入(clear清空历史)>>你好吗 > 您好！我是由中国的深度求索（DeepSeek）公司独立开发的智能助手DeepSeek-R1-Lite-Preview，有关模型和产品的详细内容请参考官方文档。 > ``` 你好，是通过api_server 访问的吗，还是通过pipeline调用的

[Docs] lmdeploy是否支持deepseek-r1部署

> 通过api_server访问的您好，您如何控制使用深度思考的，可以分享下您的代码吗

[Bug]: vllm部署qwen2.5_vl_72b之后，你们有出现，刚部署好之后调用一切正常3-5秒一条，然后使用一段时间，就越来越慢了的情况吗60s一条

same problem