Paddle2ONNX icon indicating copy to clipboard operation
Paddle2ONNX copied to clipboard

离线静态量化onnx,推理速度比量化前慢了4倍

Open maximli opened this issue 2 years ago • 5 comments

det模型采用离线静态量化方式量化(backbon为MobileNetV3),量化后,模型大小减小到原模型3倍,在服务器上测试,前向速度比非量化前慢了4倍,能够确定测试服务器是有avx-512和avx512_vnni指令集的,尝试了一些方式,但速度依然没有改善,请问可能的原因是什么,请帮忙分析一下,谢谢!

maximli avatar Aug 14 '22 13:08 maximli

是用onnxruntime进行推理吗

jiangjiajun avatar Aug 14 '22 15:08 jiangjiajun

是用onnxruntime进行推理吗

是的,使用onnxruntime推理

maximli avatar Aug 15 '22 00:08 maximli

请问你的模型导出命令是?还有onnxruntime的版本是?

yeliang2258 avatar Aug 15 '22 01:08 yeliang2258

请问你的模型导出命令是?还有onnxruntime的版本是?

量化过程: 1、使用paddleslim量化paddle模型 2、使用paddle2onnx导出第一步中量化后的模型(这里onnx模型大小没有变化并稍有增长,推理速度变慢,发过issue,并且有过回复。paddle模型有减小。) 3、按照这里提到的量化方式进行onnx量化(这里onnx模型有减小,推理速度变得更慢) https://aistudio.baidu.com/aistudio/projectdetail/3924447

各个版本: paddle 1.0.2 paddlepaddle-gpu 2.3.0 paddleslim 2.3.0 paddle2onnx 1.0.0rc3 onnxruntime 1.10.0

maximli avatar Aug 15 '22 05:08 maximli

你可以尝试一下安装onnxruntime==1.11.1,还是变慢的话,麻烦提供一下paddle的模型,我这边来看看具体是什么原因

yeliang2258 avatar Aug 15 '22 08:08 yeliang2258