ncnn ncnn Int8 quantization question

ncnn Int8 quantization question

Open XJTUWYD opened this issue 2 years ago • 3 comments

detail | 详细描述 | 詳細な説明

1.模型量化后bin size缩小了一倍，但是从float32->int8应该是缩小为原来的四分之一才对呀，有点奇怪，请大佬解惑。 2.量化后模型推理变慢了10%(cotex x2 thread number 4)，为什么会变慢呢，我使用的模型是yolov5 nano x0.5，请大佬解惑。

Jul 28 '22 03:07 XJTUWYD

fp16->int8 是二分之一
使用最新版本的ncnn
yolov5 使用 swish 激活，这无法量化导致频繁退回 fp16 计算，建议改用 relu 激活

Jul 28 '22 06:07 nihui

了解了，我用的是很新版本的NCNN，应该不是版本问题，应该就是swish的问题，谢谢回复

Jul 28 '22 09:07 XJTUWYD

detail | 详细描述 | 詳細な説明

1.模型量化后bin size缩小了一倍，但是从float32->int8应该是缩小为原来的四分之一才对呀，有点奇怪，请大佬解惑。 2.量化后模型推理变慢了10%(cotex x2 thread number 4)，为什么会变慢呢，我使用的模型是yolov5 nano x0.5，请大佬解惑。

量化过后在GPU上的速度提升了20%，这个是什么原因呢？

Jul 28 '22 09:07 XJTUWYD

fp16->int8 是二分之一

使用最新版本的ncnn

yolov5 使用 swish 激活，这无法量化导致频繁退回 fp16 计算，建议改用 relu 激活

你好，int8量化时 Prelu 会有问题吗

Oct 28 '22 09:10 weilanShi

ncnn ncnn copied to clipboard

ncnn Int8 quantization question

detail | 详细描述 | 詳細な説明

detail | 详细描述 | 詳細な説明

ncnn
ncnn copied to clipboard