zhang

Results 8 comments of zhang
trafficstars

I have met some similar problem,do you solve the problem? @muyuuuu

我是量化完后运行速度更慢了怎么回事。

I have the same problem, after zero-quant with DeepSpeed-Example reposity's code, but didn't see any throughput/latency gain from the quantization during inference, it only have model size decrease. the inference...

> 我做了实验,也是类似的结论 感觉像是量化模块功能并没有起作用,我用官方提供的权重能达到和 FP16 相同的速度,但没有加速效果。

> 因为量化的时候只量化了参数,计算还是在 fp16 做的,如果用 INT8 做计算的话准确性损失会很大 我理解没错的话,就是还需要实现相应的 int8 量化推理层,fasterformer 框架实现了很多层的量化推理层,如下所示。

> 楼主这个图在哪看的 我自己做的。

试试减小 MAX_JOBS=2,改为这样编译,我自己是 6gb 显存卡上编译成功了。 MAX_JOBS=2 python setup.py install