zhang
zhang
I have met some similar problem,do you solve the problem? @muyuuuu
我是量化完后运行速度更慢了怎么回事。
I have the same problem, after zero-quant with DeepSpeed-Example reposity's code, but didn't see any throughput/latency gain from the quantization during inference, it only have model size decrease. the inference...
> 我做了实验,也是类似的结论 感觉像是量化模块功能并没有起作用,我用官方提供的权重能达到和 FP16 相同的速度,但没有加速效果。
> 因为量化的时候只量化了参数,计算还是在 fp16 做的,如果用 INT8 做计算的话准确性损失会很大 我理解没错的话,就是还需要实现相应的 int8 量化推理层,fasterformer 框架实现了很多层的量化推理层,如下所示。
> 楼主这个图在哪看的 我自己做的。
这个时间隔的有点久不记得了,可以去看 AI-EDU 的课程资料。
试试减小 MAX_JOBS=2,改为这样编译,我自己是 6gb 显存卡上编译成功了。 MAX_JOBS=2 python setup.py install