PGFLMG
PGFLMG
@Jzz24 hi, I finish this PR. Can you review it?
用naive 量化实现的Llama3模型导出,后续补上awq的。讨论后决定暂不做SplitModel 和 MergeModel
上个PR没合,我就在那个基础上继续写了。代码太多可能review起来有些困难QAQ 整体的逻辑是这样的,我把量化的步骤定义在了ConvertWeightToOpmx.py里,这个文件完成量化的工作。之后在Modeling里我适配了量化。量化层的定义也写在了ModelParallel.py里。
是两个文件,具体是什么问题呢?
转换的目的是为了适配pmx自己的RoPE逻辑,然后后续会为了适配量化做这一步转换。
> > 怎么进一步转换成 onnx 或者 pmx 格式?用 ppl.llm.serving 启动,提升 pmx 或者 onnx 文件不存在 继续Export.py导出模型,就能获得onnx格式的文件
@Flynn-Zh 更具体的可能需要问下 @Alcanderian or @Jzz24
Could you plz fix lint and rebase master, i will help you merge this PR
@Valentine233 Hi, could you plz fix lint? I will help you merge this PR.
| batch_size | hidden_size | dtype | w/o pdl | w/ pdl | |------------|-------------|----------------|-----------|-----------| | 1 | 111 | torch.float16 | 12.224000 | 9.632000 | | 1 | 111 |...