ywm12345
ywm12345
> 说明里面没有写支持多卡。尝试将ChatGLM-6B里面的utils.py复制过来,按照ChatGLM-6B的方式,将Web_demo_hf.py改多卡,会报错。 是的,我也这么操作了,报错各种参数不存在什么的,应该需要重新写生成device_map这个方法,
> 说明里面没有写支持多卡。尝试将ChatGLM-6B里面的utils.py复制过来,按照ChatGLM-6B的方式,将Web_demo_hf.py改多卡,会报错。 能不能指定多卡中的某个卡部署呀
> 多卡inference可以通过改变设备的device,如果不想理解并改动代码,可以通过在外面设定CUDA_VISIBLE_DEVICES 环境变量启动使用不同卡的多个进程实现。 我看了chatglm-6b的那个device_map也就是把层数分到机器的各个gpu块上,但visualglm中的层数我看了config.json,也没有准确看出有多少层,且还有类似device_map = {'transformer.word_embeddings': 0, 'transformer.final_layernorm': 0, 'lm_head': 0}这种参数也不知道有哪些参数,所以我也不知道该如何去定义device_map,有没有例子或教程什么的
应该需要将接口写成流式的并前端也需要写适配流的页面
自己的写的stream-chat接口吗