[BUG] <mini cpm V2.0 finetune需要这么大显存么?>
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
- [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
- [X] 我已经搜索过FAQ | I have searched FAQ
当前行为 | Current Behavior
使用官方脚本 其他都没改 A800 80G *8 的机器 zero2 只能batch size 开到4? 我哪里设置错了么。。。求问~
期望行为 | Expected Behavior
No response
复现方法 | Steps To Reproduce
No response
运行环境 | Environment
- OS: Ubuntu
- Python: 3.9
- Transformers: 4.40
- PyTorch:2.1
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):11.8
备注 | Anything else?
No response
你好,这是正常的。如果需要开到更高,可以尝试使用gradient_accumulation_steps来调整
你好,这是正常的。如果需要开到更高,可以尝试使用gradient_accumulation_steps来调整
默认参数的8.。。是针对B200设置的么。。。 之前7B的模型ft也能开到16的bs, 模型加载不是只要8G左右的显存么。。剩下的70G只能4个batch么~ 还是有点奇怪
你好 4卡a100 80gb能跑微调吗
跑是能跑的 全量微调 bs =4 ,gradient_accumulation_steps 8 左右可以稳定跑 低了有概率oom
batch_size 2 gradient_accumulation_steps 8 也oom 好奇怪
还没来得及看代码 理论上1.8B的模型不应该是这个情况。。。
torch.distributed.elastic.multiprocessing.errors.ChildFailedError: finetune.py FAILED
Failures: <NO_OTHER_FAILURES>
Root Cause (first observed failure): [0]: time : 2024-05-26_22:14:56 host : gpu08.cluster.com rank : 2 (local_rank: 2) exitcode : -9 (pid: 2666684) error_file: <N/A> traceback : Signal 9 (SIGKILL) received by PID 2666684
你好,minicpm-v 是多模态大模型,因此显存占用跟语言模型有一些区别,模型在进行视觉编码的时候也会占用一部分显存,并且模型内置了高清图编码策略,也就是输入图片是高分辨率时,会通过 slice 操作把图片划分成多个 patch, 这一步骤会显著增加 vision encoder 的输入长度,同时也会占用更多的显存。 此外,你可以通过减小 model_max_length 来降低显存占用。