逝夜长歌
逝夜长歌
我单卡24G 占用21G, 你这个按理说跑得起来
> 请问一下,哪有能有bge-reranker-v2-m3转onnx和onnxruntime运行转换之后的模型的相关脚本呢? 可以使用optimum-cli
> ### Motivation > 我用lmdeploy serve api_server起了一个推理服务InternVL2-26B,发现了以下问题: 1、设置stream=true时,发现每一条都会有"usage":null的内容,生成最后一个token时,"usage"并没有具体的输入和输出tokens信息,这样的话就没有办法统计流式接口的tokens,我理解这不是标准的openai格式,请各位大佬关注修一下。 2、压测接口时,逐渐增加并发数,发现显存占用一直在变多,不请求也没有清除多余显存占用,建议增加每次请求完成后清理显存占用的操作。 3、服务部署成功后,内存似乎没有释放,free -m 发现有大量的内存在buff/cache里,请各位大佬关注一下。  > > ### Related resources > _No response_ > > ### Additional context > _No response_ 1....
> 大家好,鉴于我们正处于临界点#2090,我将推迟此 PR,直到#2090合并为止, 对于给您带来的不便,我深表歉意 这个有计划发布吗?
> 第二次问你好吗,回答说自己是DeepSeek-R1-Lite-Preview: > > ``` > 是否深度思考(0代表否,1代表是)0 > 请输入(clear清空历史)>>你好吗 > 您好!我是由中国的深度求索(DeepSeek)公司独立开发的智能助手DeepSeek-R1-Lite-Preview,有关模型和产品的详细内容请参考官方文档。 > ``` 你好,是通过api_server 访问的吗,还是通过pipeline调用的
> 通过api_server访问的 您好,您如何控制使用深度思考的,可以分享下您的代码吗