mengrennwpu
mengrennwpu
@qing-tian-meng-ying LMDeployServer中有个张量并行的tp参数可以设置,但貌似源码lmdeploy.api.py中的serve又将tp从kwargs中pop了,导致后面模型的初始化tp又成了1,不过手动改下就可以了。源码如下: `python def serve(model_path: str, model_name: Optional[str] = None, backend: Literal['turbomind', 'pytorch'] = 'turbomind', backend_config: Optional[Union[TurbomindEngineConfig, PytorchEngineConfig]] = None, chat_template_config: Optional[ChatTemplateConfig] = None, server_name: str = '0.0.0.0', server_port: int...
> @xs818818 使用 Qwen 模型的方法我也没有跑通,应该是 mindsearch/agent 这模块下的逻辑问题,包括采用 SiliconFlow 的 API 的情况下,我也只能跑通使用 internlm/internlm2_5-7b-chat 这个模型的情况。 @lcolok 其他模型没有跑通很正常,因为当前internlm/internlm2_5-7b-chat 针对这个搜索RAG的场景是微调过的