fastllm quant 方法

quant 方法

Open JianbangZ opened this issue 1 year ago • 3 comments

请问是否有计划实现类似ggml采取更加灵活的量化方法，如Q4_1, q3_k_m

Jul 04 '23 13:07 JianbangZ

这个意思是不同layer使用不同bit的量化吗？

Jul 04 '23 23:07 wildkid1024

这个意思是不同layer使用不同bit的量化吗？

对，差不多上是如此

Jul 05 '23 12:07 JianbangZ

短期估计不会支持了.. 目前除了Linear层之外，其余层都是FP32的

Jul 05 '23 14:07 ztxz16