eigenLiu

Results 56 comments of eigenLiu
trafficstars

我有办法。请跟进https://github.com/vllm-project/vllm/issues/4369

技术咨询您一下 @zhyncs 比如这个模型 https://huggingface.co/Phind/Phind-CodeLlama-34B-v2 我只有4卡v100共64G显存,想做int4量化,lmdeploy有啥方案没。

@zhyncs 麻烦科普一下W4A16,W8A8分别是啥意思。

> #2090 adds support for both AWQ and GPTQ models on V100. great thanks to this pr!

i saw this pr merged, https://github.com/InternLM/lmdeploy/pull/2090 so i'll try this gptq model on v100: https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GPTQ if succeeded, i'll give a report here and close this issue. thanks to you all...

@zhyncs hi~~ 拉起来报错。 因为060a版本在pypi上没有,所以无法pip install,我从源码安装的,执行的: 解压060a zip包,并进入lmd的目录,然后: mkdir -p build && cd build bash ../generate.sh make make -j$(nproc) && make install cd .. pip install -e . 然后在各种报错的引导下,我改了模型的这几处配置: ![微信图片_20240830223657](https://github.com/user-attachments/assets/bd52c14d-2ed4-4edc-936f-8fb44881fb5c) bf16改为fp16、量化配置group_size从-1改为了128、desc_act...

> @eigen2017 > > 目前 GPTQ 只支持 group_size=128, desc_act=False 的情况(大部分 Qwen 系列提供的 GPTQ 版本模型)。 直接改 quantization config 不能改变权重本身的性质。 > > group_size=-1 的模型可以把 scales 和 qzeros 重复 ceil_div(input_dims, 128) 遍转成 group_size=128...

looking forward to this great feature be implemented~

@lzhangzz 大神有计划大致啥时候push?我们先clone一版帮忙测测~ 国内现在只有v100比较多,需要支持gptq 4bit的推理