fastllm
fastllm copied to clipboard
如果用gpu编译这个项目后,用fastllm加载模型是只能用gpu推理嘛
请教下gpu编译和非gpu编译有什么区别????
gpu编译后,默认使用GPU推理。但您可以使用llm.set_device_map("cpu")指定CPU推理。
这样设置还是会跑在一块gpu上 ,只有编译时设置 -DUSE_CUDA=OFF 才会只跑在cpu 上, 这样时合理的吗 ?