MiniCPM-V [BUG] 计算 vision embedding 时没有凑batch，导致性能差

计算 vision embedding 时，在 bs 维度有一个 for 循环，导致无法充分利用显卡性能。想知道这样是 bydesign 的，还是实现有缺陷。

代码位置： https://huggingface.co/openbmb/MiniCPM-V-2/blob/ee00ff7ce36667e7df81cb2a018951b663bdcc59/modeling_minicpmv.py#L106

凑batch计算

No response

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

No response

Aug 08 '24 12:08 Yangruipis

如果是缺陷，我乐意提 pr

Aug 08 '24 12:08 Yangruipis

非常欢迎您尝试修改, 这个是 minicpm-v 2.0 存在的一个问题, 我们已经对v2以后的模型进行了修改使用的是 huggingfaceM4实现的siglip 并且支持batch推理的~

Aug 08 '24 18:08 Cuiunbo

非常欢迎您尝试修改, 这个是 minicpm-v 2.0 存在的一个问题, 我们已经对v2以后的模型进行了修改使用的是 huggingfaceM4实现的siglip 并且支持batch推理的~

如果在这边resize/padding ，凑成batch输入，会对算法性能有影响吗

Aug 09 '24 04:08 Yangruipis

是会的

Aug 15 '24 13:08 Cuiunbo