fong-git
fong-git
哈喽 下午好! 非常感谢你的解答,我这边把x.cpu()注释掉以后 vit的处理时间还是很慢呢,还是要300ms左右。不知道你那边注释了以后推理速度怎么样呢 丰 ***@***.*** ------------------ 原始邮件 ------------------ 发件人: "InternLM/lmdeploy" ***@***.***>; 发送时间: 2024年10月23日(星期三) 下午2:48 ***@***.***>; ***@***.******@***.***>; 主题: Re: [InternLM/lmdeploy] [Bug] InternVL2-2B的推理速度慢,发现是视觉特征提取的耗时很长 (Issue #2604) 嗨,我也发现了类似的问题,我这边简单分析了下,lmdeploy比vllm在vit部分平均增加的耗时是由于lmdeploy需要将vit的feature遍历从gpu到cpu,也就是下面图中的x.cpu()引起的 image.png (view on web) — Reply to this...
> 但是这里虽然是去掉了to cpu时间,后面还是会进行gpu到cpu同步的,lmdeploy逻辑是这样实现的 所以是lmdeploy这里即便注释掉tocpu()了,后面还是会进行GPU到CPU的同步是吗,就是整体的时间哈还是不会减少吗
@irexyc 我测了vision model的单纯GPU计算feature的时间和vllm是差不多的,但是在VLAsyncEngine类的_get_prompt_input中统计features = await self.vl_encoder.async_infer(images)的时间会比vllm慢很多,导致实际测下来的推理速度比vllm慢