如何加载fp8模型作为Dense model？

Open AboveParadise opened this issue 10 months ago • 1 comments

使用llmc的awq_fp8.yml获取了一个fp8的llama3，如何将其作为Dense模型传入，继续进行int8量化？目前尝试直接修改model path，但ppl测试结果不合理。

Feb 26 '25 11:02 AboveParadise

fp8的llama3要用per-block(block_size=128)量化得到，因为llmc现在只能加载per-block的fp8权重。加载的时候修改torch_type: torch.float8_e4m3fn就可以了

Mar 10 '25 07:03 gushiqiao