PGFLMG comments

Results 61 comments of


                                            PGFLMG

support int4 weight only quant for llama3

@Jzz24 hi, I finish this PR. Can you review it?

support int4 weight only quant for llama3

用naive 量化实现的Llama3模型导出，后续补上awq的。讨论后决定暂不做SplitModel 和 MergeModel

support int4 weight only quant for llama3

上个PR没合，我就在那个基础上继续写了。代码太多可能review起来有些困难QAQ 整体的逻辑是这样的，我把量化的步骤定义在了ConvertWeightToOpmx.py里，这个文件完成量化的工作。之后在Modeling里我适配了量化。量化层的定义也写在了ModelParallel.py里。

为什么使用llama脚本转换qwen1.5权重文件，转出来的文件是model.pth和opmx_params.json两个文件

是两个文件，具体是什么问题呢？

为什么使用llama脚本转换qwen1.5权重文件，转出来的文件是model.pth和opmx_params.json两个文件

转换的目的是为了适配pmx自己的RoPE逻辑，然后后续会为了适配量化做这一步转换。

为什么使用llama脚本转换qwen1.5权重文件，转出来的文件是model.pth和opmx_params.json两个文件

> > 怎么进一步转换成 onnx 或者 pmx 格式？用 ppl.llm.serving 启动，提升 pmx 或者 onnx 文件不存在继续Export.py导出模型，就能获得onnx格式的文件

为什么使用llama脚本转换qwen1.5权重文件，转出来的文件是model.pth和opmx_params.json两个文件

@Flynn-Zh 更具体的可能需要问下 @Alcanderian or @Jzz24

[CPU] add mamba fla kernels for Qwen3-next

Could you plz fix lint and rebase master, i will help you merge this PR

[CPU] Support chunk_gated_delta_rule kernel for Qwen3-Next

@Valentine233 Hi, could you plz fix lint? I will help you merge this PR.

[Feat] Enable PDL automatically on Hopper architecture

| batch_size | hidden_size | dtype | w/o pdl | w/ pdl | |------------|-------------|----------------|-----------|-----------| | 1 | 111 | torch.float16 | 12.224000 | 9.632000 | | 1 | 111 |...