BUG1989
BUG1989
@JSnobody armv8.2以下指令集其实对int8计算不是很友好,理论上fp32和int8的乘加op吞吐率是一样的,所以一个稳定高效的fp32是更加重要的,当然后面avx512或者dot int8的指令是另外一回事了。 @turbo0628 加油鸭
现在还有第三个流派是,trainning int8,鼻祖可以参考Ristretto caffe,分为两个步骤: 1. 使用数据集统计出大概的量化scale; 2. 将量化scale引入finetune流程,使权重反过来适配第一步中的量化scale,恢复精度。 框架有:TensorFlow、Intel Caffe、Xilinx dnn
@Hank880223 如果方便的话,可以在 QQ 群里进行进一步讨论。
@Hank880223 > 請問QQ群裡面的那個問題是要回答什麼嗎? CNN
> 您好,已經申請加群 并没有收到入群申请……你 QQ 号多少我拉你进群
请尝试使用 OpenCL 的后端呢?
CMake 构建工程时,请启用 TENGINE_ENABLE_MODEL_CACHE 功能 `-DTENGINE_ENABLE_MODEL_CACHE=ON`
1. 如果你们的 NPU 芯片 SDK 能提供 graph api,那么参考 TIMVX、TensorRT、NVDLA 的后端实现即可。根据经验,目前 Tengine 提供的示例代码和文档信息量满足开发者独立完成 NPU 后端适配,因为 NVDLA 就是由社区开发者独立完成的; 2. Tengine 的 Quantization Tools,同时提供了两种场景的量化 specification 的实现,即 TFLite v1.0 的 asymmetric per-tensor 和 NV...
请提供下 export TG_DEBUG_TIME=1 的 log 信息,另外这个 SSD 模型是 caffe-ssd 吗?如果是 PyTorch 的 SSD,建议单独实现 SSD 后处理
目前能稳定使用的只有 C API