VLMEvalKit 7B模型在4*A100 80GB上发生OOM

7B模型在4*A100 80GB上发生OOM

Open Rocky77JHxu opened this issue 1 year ago • 5 comments

当我针对InternLM-XComposer2_5-7B模型进行评估时，出现了OOM，配置是4*A100 80GB。我观察到执行过程送入query进入模型的速度非常的快，发生OOM的原因是否和一次性送入的batch有关？刚开始的时候，每块GPU显存在20~70GiB上下疯狂跳动，而在第12轮左右便发生了OOM。

但是同样的4*A100 80GB的硬件条件下，评估 InternVL2-40B竟然没有任何问题，显存也很稳定的在45GB左右。不过执行的速度很慢，似乎在InternVL2-40B中每次就送入一个batch。

这很奇怪，如果是batch问题我应该如何修改它？我尝试修改过${VLMEvalKit}/vlmeval/vlm/xcomposer/xcomposer2d5.py的代码，但是并不奏效，我也没发现batch是在哪里实现的。

如果不是batch问题，我应该如何让7B的模型能够完成评估？

我的执行命令是：

torchrun --nproc-per-node=4 run.py --data MathVision MathVision_MINI --model XComposer2d5 --verbose

报错信息：

此外，我76B的模型仍然也会有OOM的情况。我尝试先将 76B 模型利用 LMDepoly 部署成 openai 接口，再接入到 VLMEvalKit 评测框架中，但是发现失败了。报错是：2024-08-13 16:48:22,299 - ChatAPI - ERROR - HTTPSConnectionPool(host='openaipublic.blob.core.windows.net', port=443): Max retries exceeded with url: /encodings/cl100k_base.tiktoken (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x2ae04fd4b400>: Failed to resolve 'openaipublic.blob.core.windows.net' ([Errno -2] Name or service not known)"))

Aug 13 '24 10:08 Rocky77JHxu

VLMEvalKit VLMEvalKit copied to clipboard

7B模型在4*A100 80GB上发生OOM

VLMEvalKit
VLMEvalKit copied to clipboard