TigerBot 量化模型单卡推理报错

量化模型单卡推理报错

Open hanyc0914 opened this issue 1 year ago • 2 comments

CUDA_VISIBLE_DEVICES=0 python tigerbot_infer.py ${MODEL_DIR} --wbits 4 --groupsize 128 --load ${MODEL_DIR}/tigerbot-7b-4bit-128g.pt

系统信息： torch 1.13.1+cu117 cuda 11.4 triton 2.0.0.post1 Python 3.10.9

显卡型号： gp104gl tesla p4

请问可以在cpu下进行量化模型的推理吗？需要如何修改执行命令呢？

Jun 12 '23 09:06 hanyc0914

你好，我们命令里面目前还没有兼容cpu的推理，如果想放在cpu上推理，可以在tiger_infer.py代码里将DEV变量改为 DEV = torch.device('cpu') 来试试

Jun 15 '23 01:06 Vivicai1005

你好，我们命令里面目前还没有兼容cpu的推理，如果想放在cpu上推理，可以在tiger_infer.py代码里将DEV变量改为 DEV = torch.device('cpu') 来试试

改了DEV和出现.cuda()的地方还是报错：请问第一个在GPU推理时MMA的报错是什么原因吗？

Jun 15 '23 08:06 hanyc0914