MiniCPM
MiniCPM copied to clipboard
请问是否可以提供转成onnx的相关指导文档,谢谢
您好,由于Reranker采用的是双向注意力,无kv cache机制,因此使用vllm部署并不会有较大的提升。您可以尝试转成onnx
Originally posted by @Kaguya-19 in https://github.com/OpenBMB/MiniCPM/issues/258#issuecomment-2461252273
同求,Optimum SDK 上似乎也没支持这个模型的 Onnx 的转换 o(╥﹏╥)o
可以先试试用llama架构转哈,我下周也来研究一下
欢迎参考这份Python脚本来导出MiniCPM4-ONNX