ppq
ppq copied to clipboard
想利用PPQ做大模型量化的一些疑问
大佬好,现在想利用PPQ实现一些大模型量化的方法,有以下几个问题:
- 看之前的代码貌似是有PPLCUDA_INT4_Quantizer,int4量化的,这个移除的原因是什么呢,是因为这个quantizer量化的效果不佳么
- 假如基于ppq实现了3bit 4bit模型的量化存到onnx里面了,想问下怎么存储权重呢,是不是用make_tensor的时候把权重encode到8bit里面存成bytes,onnx make_tensor的时候放到raw_data里面呢?