lizexu123
lizexu123
你跑的原生gpu还是trt推理
matmul这个算子没找到int8的实现,如果你用的paddle-trt推理,使用config.exp_disable_tensorrt_ops(["name"]) 这个name是你这个op输出的名字
你看你的运行过程中,有没有出现detected a subgraph with ***nodes
是下载的cuda相关的Paddle吗,我看matmul_kernel.cu中如果包括ifdef PADDLE_WITH_CUDA ,才支持int8
试一下Paddle2.5和PaddeSlim2.5呢
这个[01/16/2024-03:40:10] [TRT] [E] 3: [executionContext.cpp::setBindingDimensions::1513] Error Code 3: API Usage Error (Parameter check failed at: runtime/api/executionContext.cpp::setBindingDimensions::1513, condition: engineDims.nbDims == dims.nbDims )应该是没什么影响,能跑通就没事,int8的结果正确吗
用什么方法压缩的?把github链接发一下
可以使用PaddeSlim2.5和Paddle2.5两个版本试一下
量化后的模型,不需要转,就可以在mkldnn上进行部署的