逝夜长歌

Results 7 comments of 逝夜长歌

我单卡24G 占用21G, 你这个按理说跑得起来

> 请问一下,哪有能有bge-reranker-v2-m3转onnx和onnxruntime运行转换之后的模型的相关脚本呢? 可以使用optimum-cli

> ### Motivation > 我用lmdeploy serve api_server起了一个推理服务InternVL2-26B,发现了以下问题: 1、设置stream=true时,发现每一条都会有"usage":null的内容,生成最后一个token时,"usage"并没有具体的输入和输出tokens信息,这样的话就没有办法统计流式接口的tokens,我理解这不是标准的openai格式,请各位大佬关注修一下。 2、压测接口时,逐渐增加并发数,发现显存占用一直在变多,不请求也没有清除多余显存占用,建议增加每次请求完成后清理显存占用的操作。 3、服务部署成功后,内存似乎没有释放,free -m 发现有大量的内存在buff/cache里,请各位大佬关注一下。 ![Snipaste_2024-07-26_15-11-05](https://private-user-images.githubusercontent.com/65438006/352432165-4600488b-d919-45a3-82c5-735602cecf9a.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjE5ODE4NDMsIm5iZiI6MTcyMTk4MTU0MywicGF0aCI6Ii82NTQzODAwNi8zNTI0MzIxNjUtNDYwMDQ4OGItZDkxOS00NWEzLTgyYzUtNzM1NjAyY2VjZjlhLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA3MjYlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNzI2VDA4MTIyM1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWE2YmZjYWI3NmU1MGE0NDk5ZGEzMTg4Y2Y4NmI4ODA0YWNkMmUzYjNlZGNkMTA4NjAzNjQ2ZTU3ZTc3NWRhZWMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.nyDAw8k4VcQeDmhMI-PSXn1JC0rvVV1QlfuqdHqaa74) > > ### Related resources > _No response_ > > ### Additional context > _No response_ 1....

> 大家好,鉴于我们正处于临界点#2090,我将推迟此 PR,直到#2090合并为止, 对于给您带来的不便,我深表歉意 这个有计划发布吗?

> 第二次问你好吗,回答说自己是DeepSeek-R1-Lite-Preview: > > ``` > 是否深度思考(0代表否,1代表是)0 > 请输入(clear清空历史)>>你好吗 > 您好!我是由中国的深度求索(DeepSeek)公司独立开发的智能助手DeepSeek-R1-Lite-Preview,有关模型和产品的详细内容请参考官方文档。 > ``` 你好,是通过api_server 访问的吗,还是通过pipeline调用的

> 通过api_server访问的 您好,您如何控制使用深度思考的,可以分享下您的代码吗