Tengine
Tengine copied to clipboard
模型中有tim-vx不支持的层,切图耗时太大的问题
rk1109跑一个类ssd的模型,uint8量化后才300多k,rk1109的npu跑一次要4s,因为图中几个层不支持,导致会在npu和cpu层之间来回切,导致耗时过大,有什么优化方案吗

请提供下 export TG_DEBUG_TIME=1 的 log 信息,另外这个 SSD 模型是 caffe-ssd 吗?如果是 PyTorch 的 SSD,建议单独实现 SSD 后处理