ChatGLM2-6B icon indicating copy to clipboard operation
ChatGLM2-6B copied to clipboard

[BUG/Help] 有个疑问,模型刚开始运行的时候推理很慢,但是过一段时间(问一些问题或者两三个小时后)推理就很快了,这个是什么原因?

Open ToviHe opened this issue 1 year ago • 13 comments

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

A100 40G的显卡,部署了chatglm2-6b的模型,刚开始运行的时候推理很慢,字符差不多是一个一个跳出来的,等过差不多两三个小时,突然就变快了,想问问是什么原因,以及是否是正常情况,谢谢。

Expected Behavior

No response

Steps To Reproduce

1.启动大模型 2.问问题,刚开始时响应很慢,几乎是一个字符跳出来的 3.过一段时间,推理就很快了,刷一下答案就出来了

Environment

- OS:suse 12 sp5
- Python:3.8.1
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

ToviHe avatar Jul 31 '23 09:07 ToviHe

我也有这个问题,很奇怪,我还以为pytorch的问题

wu-shanglin avatar Aug 09 '23 01:08 wu-shanglin

我也有这个问题,很奇怪,我还以为pytorch的问题

我这两天尝试使用镜像的方式部署,发现镜像的方式一启动,推理就很快了,不知道是不是和操作系统有关系?

ToviHe avatar Aug 09 '23 01:08 ToviHe

经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复

wu-shanglin avatar Aug 09 '23 02:08 wu-shanglin

经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复

这个和我的情况看起来不一样,我是一块 40G 的 A100,都没有其他的程序占用

ToviHe avatar Aug 09 '23 02:08 ToviHe

问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢 image

orange2013 avatar Aug 23 '23 12:08 orange2013

问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢 image

改成镜像方式试试?我们换镜像启动后推理就挺快了

ToviHe avatar Aug 25 '23 07:08 ToviHe

问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢 image

改成镜像方式试试?我们换镜像启动后推理就挺快了

试了下在镜像里面进行推理,速度还是一样慢

enddlesswm avatar Oct 23 '23 08:10 enddlesswm

我是遇到部署推理一段时间后,推理速度只有原来的一半!不知道是啥问题

FrankWhh avatar Nov 20 '23 02:11 FrankWhh

我是遇到部署推理一段时间后,推理速度只有原来的一半!不知道是啥问题

会不会是显存不够了? 我们后来都采用镜像方式,一开始速度就挺快了,然后也基本上速度没下来过。(但是我们推理服务基本上也就运行几天就手动去停止了,还没有长时间运行过)

ToviHe avatar Nov 20 '23 02:11 ToviHe

显存够得

FrankWhh avatar Nov 20 '23 06:11 FrankWhh

我用docker跑的ollama,第一次运行模型时间会很久,起来了之后问答基本秒回,然后过了一段时间后再次提问又要等好久,时间和重新运行时间差不多

xianrongLei avatar May 14 '24 07:05 xianrongLei

应该是初始化CUDA的问题

147GTP avatar Jul 28 '24 05:07 147GTP

可以看看:https://blog.csdn.net/qq_40231159/article/details/120901785 这篇文章

147GTP avatar Jul 28 '24 05:07 147GTP