ppl.pmx support int4 weight only quant for llama3

Support int4 weight only quantization for Llama3

Some WIP:

Jul 01 '24 17:07 FlamingoPg

@Jzz24 hi, I finish this PR. Can you review it?

Jul 05 '24 06:07 FlamingoPg

@Jzz24 hi, I finish this PR. Can you review it?

OK

Jul 09 '24 08:07 Jzz24

用naive 量化实现的Llama3模型导出，后续补上awq的。讨论后决定暂不做SplitModel 和 MergeModel

Jul 15 '24 17:07 FlamingoPg

上个PR没合，我就在那个基础上继续写了。代码太多可能review起来有些困难QAQ

整体的逻辑是这样的，我把量化的步骤定义在了ConvertWeightToOpmx.py里，这个文件完成量化的工作。之后在Modeling里我适配了量化。量化层的定义也写在了ModelParallel.py里。

Jul 16 '24 16:07 FlamingoPg