Paddle2ONNX 离线静态量化onnx，推理速度比量化前慢了4倍

离线静态量化onnx，推理速度比量化前慢了4倍

Open maximli opened this issue 2 years ago • 5 comments

det模型采用离线静态量化方式量化（backbon为MobileNetV3），量化后，模型大小减小到原模型3倍，在服务器上测试，前向速度比非量化前慢了4倍，能够确定测试服务器是有avx-512和avx512_vnni指令集的，尝试了一些方式，但速度依然没有改善，请问可能的原因是什么，请帮忙分析一下，谢谢！

Aug 14 '22 13:08 maximli

是用onnxruntime进行推理吗

Aug 14 '22 15:08 jiangjiajun

是用onnxruntime进行推理吗

是的，使用onnxruntime推理

Aug 15 '22 00:08 maximli

请问你的模型导出命令是？还有onnxruntime的版本是？

Aug 15 '22 01:08 yeliang2258

请问你的模型导出命令是？还有onnxruntime的版本是？

量化过程： 1、使用paddleslim量化paddle模型 2、使用paddle2onnx导出第一步中量化后的模型（这里onnx模型大小没有变化并稍有增长，推理速度变慢，发过issue，并且有过回复。paddle模型有减小。） 3、按照这里提到的量化方式进行onnx量化（这里onnx模型有减小，推理速度变得更慢） https://aistudio.baidu.com/aistudio/projectdetail/3924447

各个版本： paddle 1.0.2 paddlepaddle-gpu 2.3.0 paddleslim 2.3.0 paddle2onnx 1.0.0rc3 onnxruntime 1.10.0

Aug 15 '22 05:08 maximli

你可以尝试一下安装onnxruntime==1.11.1，还是变慢的话，麻烦提供一下paddle的模型，我这边来看看具体是什么原因

Aug 15 '22 08:08 yeliang2258

Paddle2ONNX Paddle2ONNX copied to clipboard

离线静态量化onnx，推理速度比量化前慢了4倍

Paddle2ONNX
Paddle2ONNX copied to clipboard