希望能使用vllm加速llm reranker
+1
+1
+1
组内同事帮忙实现了,有一些小改动
组内同事帮忙实现了,有一些小改动
相比TensorRT和onnx有多大提升啊。 能否提供一下参考代码
组内同事帮忙实现了,有一些小改动
相比TensorRT和onnx有多大提升啊。 能否提供一下参考代码
avg p90 p99等耗时指标降低一半多,收益挺明显的,比预期高(之前以为只返回一个token,耗时优化应该不太明显),强力推荐
组内同事帮忙实现了,有一些小改动
相比TensorRT和onnx有多大提升啊。 能否提供一下参考代码
avg p90 p99等耗时指标降低一半多,收益挺明显的,比预期高(之前以为只返回一个token,耗时优化应该不太明显),强力推荐
可否分享一下示例代码
可否分享一下示例代码 +1
去用vllm部署吧,现在vllm已经支持bge reranker了
去用vllm部署吧,现在vllm已经支持bge reranker了
有示例代码吗