目前支持minicpm_v_v2_5_chat的多卡推理吗?
单卡推理没问题,设置tp=2、4、8多卡推理的时候,Aborted(core dumped)
device_map方式应该是没问题的
device_map方式应该是没问题的
import os os.environ['CUDA_VISIBLE_DEVICES'] = '6,7'
model_type = ModelType.minicpm_v_v2_5_chat lmdeploy_engine = get_lmdeploy_engine(model_type, model_id_or_path='/home/llm/MiniCPM/MiniCPM-Llama3-V-2_5', tp=2) template_type = get_default_template_type(model_type) template = get_template(template_type, lmdeploy_engine.hf_tokenizer) lmdeploy_engine.generation_config.max_new_tokens = 256 generation_info = {}
这样直接在lmdeploy_engine这一步Aborted (core dumped)了 你说的device_map方式是怎么样的使用姿势呀?
已经支持vllm & vlm, 拉取一下main分支