[Docs] V100-32G 推理OpenGVLab/InternVL2-1B 显存不断增长

Open freehome1 opened this issue 1 year ago • 1 comments

使用quick start的例子，仅仅使用1B的模型显存为什么能占用到20+G

No response

Aug 05 '24 07:08 freehome1

在推理的过程中像是有显存泄露的情况，运算带来的显存增加在下一次运算前没有清理

Aug 14 '24 07:08 freehome1

你好，可以在每次运行之后都执行torch.cuda.empty_cache()清空缓存

Aug 26 '24 04:08 czczup

Quick Start中的例子有的已经达到10k以上token了，所以占用的显存会比较多。

Aug 26 '24 04:08 czczup