fastllm
fastllm copied to clipboard
请教:flm模型或者是llm.model支持指定GPU吗?默认都是GPU:0
同问
刚刚测试了,model = AutoModel.from_pretrained("chatglm2-6b", trust_remote_code=True).to('cuda:2') 这种方式就可以指定gpu_id
发现另外一个问题,这种方式指定gpu_id之后,model = llm.from_hf(model, tokenizer, dtype="int8")里面的dtype就不起作用了
希望llm.from_hf()之后还能cast到不同的GPU.
model.flm现在如果是CPU版本生成的用GPU版本调用无法用GPU
to.device要灵活一点就好了
@fushengwuyu 这样在用llm.from_hf()加速的时候不会重复加载模型到gpu吗
指定 to.device 会导致重复加载
@xycjscs 对的
https://github.com/ztxz16/fastllm#%E5%A4%9A%E5%8D%A1%E9%83%A8%E7%BD%B2 更新了set_device_map接口,可以按比例把模型分配到各个设备上(包括cuda, cpu设备)
https://github.com/ztxz16/fastllm#%E5%A4%9A%E5%8D%A1%E9%83%A8%E7%BD%B2 更新了set_device_map接口,可以按比例把模型分配到各个设备上(包括cuda, cpu设备)