guoyaoming

Results 8 comments of guoyaoming

> 这可能和history信息增加有关,每次对话都会把之前的对话拼接起来,导致context增加,显存自然会增加 history清空了,进行下一轮对话也是一样,不过他貌似不会爆,到差不多要爆显存的时候,又会自己降下去了 btw: model = AutoModelForCausalLM.from_pretrained( "baichuan-inc/Baichuan-13B-Chat", #load_in_8bit=True, torch_dtype=torch.float16, #device_map="auto", trust_remote_code=True ) model = model.quantize(8).cuda() 用这个来量化问"你是谁",确实不报错了

用load_in_8bit加载,问"你是谁"就会报这个错

> > 用load_in_8bit加载,问"你是谁"就会报这个错 > > 你可以尝试用量化接口quantizer试试,具体可参考ReadMe 我就是不能在线量化,因为我的显存只有24G,这个模型需要全部加载,我的卡加载不了,如果可以加载我也不需要做量化了

> > 用load_in_8bit加载,问"你是谁"就会报这个错 > > 你可以尝试用量化接口quantizer试试,具体可参考ReadMe 还有,readme上说有量化好的int8模型,那个地址都失效了,希望可以再次开放int8模型的下载,这样24G显存的卡就不用那么纠结了

> > 用load_in_8bit加载,问"你是谁"就会报这个错 > > 我试了下load_in_8bit,我这边是没问题的。你可以把你的所有代码都贴出来,我看看能不能复现?另外,你的平台是什么?3090? model = AutoModelForCausalLM.from_pretrained( "baichuan-inc/Baichuan-13B-Chat", load_in_8bit=True, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ) 我只改动了你web_demo.py里的这理,就是加了load_in_8bit=True,这行,用P40的卡去跑,ubuntu20.04系统

大哥,微调生成的模型,要怎么使用呢?直接复制进chatGLM下加载报错呀,求指导

vllm0.8.2,已经是最新版本了