MST-plus-plus-TensorRT icon indicating copy to clipboard operation
MST-plus-plus-TensorRT copied to clipboard

:poodle: :poodle: :poodle: TensorRT 2022复赛方案: 首个基于Transformer的图像重建模型MST++的TensorRT模型推断优化

Results 7 MST-plus-plus-TensorRT issues
Sort by recently updated
recently updated
newest added

很感谢你们的分享~干货很多,有个小疑问想请教下: - 这一句中“除此之外我们发现网络结构中存在大量的Transpose+Reshape结构,这些结构是可以通过TensorRT API在设计网络的时候被合并的” ,基于API的搭建方式我理解的是你们去掉了一些多余的reshape操作(等价实现reshape但是用了更少的trt-layer),不过基于parse的方式搭建完network之后(network中包含Transpose->Reshape),会被内部trt优化成`Transpose+Reshape`结构,就和你使用nsight sys展示的一样,这其实已经合并多余的reshape/transpose吧,这个和直接使用API的方式合并,性能有差别吗? - 我理解的基于API和基于Parse的本质区别就是可以避免一些onnx的胶水、碎片算子,通过trt-plugin的方式修改onnx模型(将碎片算子合并为一个,比如layernorm)然后通过parse+plugin的方式转模型,应该和直接API+plugin的性能是一样的吧? 希望可以和大佬交流下!

请问,大佬知道 dynamic shape 下的 getWorkspaceSize 如何写吗?静态的很好判断,但目前个人自定义的算子卡在了这里,还望大佬指点!

Could you please share it again? Thanks!

你好,大神。请教一下,TensorRT 的 动态shape 推理相对静态shape,显存是不是一定会增加?如果是,有没有方法优化这个显存占用增加的现象。谢谢

@DataXujing Hi,请问是否尝试过使用TensorRT-API方式从量化训练导出的Q/DQ-onnx模型构建trt_int8 engine? 我尝试直接使用trtexec对Q/DQ-onnx进行转换,nsight分析发现推理过程transpose+reshape耗时占用高,想结合api的方式优化这部分性能,可否给一些建议?多谢~