fong-git comments

Results 3 comments of


                                            fong-git

[Bug] InternVL2-2B的推理速度慢，发现是视觉特征提取的耗时很长

哈喽下午好！非常感谢你的解答，我这边把x.cpu()注释掉以后 vit的处理时间还是很慢呢，还是要300ms左右。不知道你那边注释了以后推理速度怎么样呢丰 ***@***.***   ------------------ 原始邮件 ------------------ 发件人: "InternLM/lmdeploy" ***@***.***>; 发送时间: 2024年10月23日(星期三) 下午2:48 ***@***.***>; ***@***.******@***.***>; 主题: Re: [InternLM/lmdeploy] [Bug] InternVL2-2B的推理速度慢，发现是视觉特征提取的耗时很长 (Issue #2604) 嗨，我也发现了类似的问题，我这边简单分析了下，lmdeploy比vllm在vit部分平均增加的耗时是由于lmdeploy需要将vit的feature遍历从gpu到cpu，也就是下面图中的x.cpu()引起的 image.png (view on web) — Reply to this...

[Bug] InternVL2-2B的推理速度慢，发现是视觉特征提取的耗时很长

> 但是这里虽然是去掉了to cpu时间，后面还是会进行gpu到cpu同步的，lmdeploy逻辑是这样实现的所以是lmdeploy这里即便注释掉tocpu()了，后面还是会进行GPU到CPU的同步是吗，就是整体的时间哈还是不会减少吗

[Bug] InternVL2-2B的推理速度慢，发现是视觉特征提取的耗时很长

@irexyc 我测了vision model的单纯GPU计算feature的时间和vllm是差不多的，但是在VLAsyncEngine类的_get_prompt_input中统计features = await self.vl_encoder.async_infer(images)的时间会比vllm慢很多，导致实际测下来的推理速度比vllm慢