fastllm
fastllm copied to clipboard
quant 方法
请问是否有计划实现类似ggml采取更加灵活的量化方法,如Q4_1, q3_k_m
这个意思是不同layer使用不同bit的量化吗?
这个意思是不同layer使用不同bit的量化吗?
对,差不多上是如此
短期估计不会支持了.. 目前除了Linear层之外,其余层都是FP32的