fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

quant 方法

Open JianbangZ opened this issue 1 year ago • 3 comments

请问是否有计划实现类似ggml采取更加灵活的量化方法,如Q4_1, q3_k_m

JianbangZ avatar Jul 04 '23 13:07 JianbangZ

这个意思是不同layer使用不同bit的量化吗?

wildkid1024 avatar Jul 04 '23 23:07 wildkid1024

这个意思是不同layer使用不同bit的量化吗?

对,差不多上是如此

JianbangZ avatar Jul 05 '23 12:07 JianbangZ

短期估计不会支持了.. 目前除了Linear层之外,其余层都是FP32的

ztxz16 avatar Jul 05 '23 14:07 ztxz16