Paddle2ONNX
Paddle2ONNX copied to clipboard
离线静态量化onnx,推理速度比量化前慢了4倍
det模型采用离线静态量化方式量化(backbon为MobileNetV3),量化后,模型大小减小到原模型3倍,在服务器上测试,前向速度比非量化前慢了4倍,能够确定测试服务器是有avx-512和avx512_vnni指令集的,尝试了一些方式,但速度依然没有改善,请问可能的原因是什么,请帮忙分析一下,谢谢!
是用onnxruntime进行推理吗
是用onnxruntime进行推理吗
是的,使用onnxruntime推理
请问你的模型导出命令是?还有onnxruntime的版本是?
请问你的模型导出命令是?还有onnxruntime的版本是?
量化过程: 1、使用paddleslim量化paddle模型 2、使用paddle2onnx导出第一步中量化后的模型(这里onnx模型大小没有变化并稍有增长,推理速度变慢,发过issue,并且有过回复。paddle模型有减小。) 3、按照这里提到的量化方式进行onnx量化(这里onnx模型有减小,推理速度变得更慢) https://aistudio.baidu.com/aistudio/projectdetail/3924447
各个版本: paddle 1.0.2 paddlepaddle-gpu 2.3.0 paddleslim 2.3.0 paddle2onnx 1.0.0rc3 onnxruntime 1.10.0
你可以尝试一下安装onnxruntime==1.11.1,还是变慢的话,麻烦提供一下paddle的模型,我这边来看看具体是什么原因