mengrennwpu comments

Results 2 comments of


                                            mengrennwpu

本地部署显存不足如何多卡运行？

@qing-tian-meng-ying LMDeployServer中有个张量并行的tp参数可以设置，但貌似源码lmdeploy.api.py中的serve又将tp从kwargs中pop了，导致后面模型的初始化tp又成了1，不过手动改下就可以了。源码如下： `python def serve(model_path: str, model_name: Optional[str] = None, backend: Literal['turbomind', 'pytorch'] = 'turbomind', backend_config: Optional[Union[TurbomindEngineConfig, PytorchEngineConfig]] = None, chat_template_config: Optional[ChatTemplateConfig] = None, server_name: str = '0.0.0.0', server_port: int...

用qwen模型的报错，也不知道是不是和模型有关。docker部署源码部署都如此

> @xs818818 使用 Qwen 模型的方法我也没有跑通，应该是 mindsearch/agent 这模块下的逻辑问题，包括采用 SiliconFlow 的 API 的情况下，我也只能跑通使用 internlm/internlm2_5-7b-chat 这个模型的情况。 @lcolok 其他模型没有跑通很正常，因为当前internlm/internlm2_5-7b-chat 针对这个搜索RAG的场景是微调过的