xunmenglt
xunmenglt
请问问题解决了吗,我现在只能多卡加载模型,但是还是只能单卡推理
你部署接口的时候指定了模板名称吗,需要指定模板名称
python3 -m fastchat.serve.model_worker --host 0.0.0.0 --port 21001 --worker-address http://0.0.0.0:21001/ --controller-address http://0.0.0.0:20001/ --model-names "glm-4-9b-chat-1m" --model-path /home/LLM/glm-4-9b-chat-1m --device npu --conv-template chatglm3 你在最后加上 --conv-template chatglm3 这个试试,我记得glm4的对话模板和chatglm3的模板一样 如果还是不行的话可以更改fastchat/conversation.py文件,模仿下面这个代码创建一个对话模板 
你解决了这个问题吗