ChatGLM2-6B
ChatGLM2-6B copied to clipboard
[BUG/Help] 有个疑问,模型刚开始运行的时候推理很慢,但是过一段时间(问一些问题或者两三个小时后)推理就很快了,这个是什么原因?
Is there an existing issue for this?
- [X] I have searched the existing issues
Current Behavior
A100 40G的显卡,部署了chatglm2-6b的模型,刚开始运行的时候推理很慢,字符差不多是一个一个跳出来的,等过差不多两三个小时,突然就变快了,想问问是什么原因,以及是否是正常情况,谢谢。
Expected Behavior
No response
Steps To Reproduce
1.启动大模型 2.问问题,刚开始时响应很慢,几乎是一个字符跳出来的 3.过一段时间,推理就很快了,刷一下答案就出来了
Environment
- OS:suse 12 sp5
- Python:3.8.1
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
Anything else?
No response
我也有这个问题,很奇怪,我还以为pytorch的问题
我也有这个问题,很奇怪,我还以为pytorch的问题
我这两天尝试使用镜像的方式部署,发现镜像的方式一启动,推理就很快了,不知道是不是和操作系统有关系?
经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复
经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复
这个和我的情况看起来不一样,我是一块 40G 的 A100,都没有其他的程序占用
问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢
问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢
改成镜像方式试试?我们换镜像启动后推理就挺快了
问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢
改成镜像方式试试?我们换镜像启动后推理就挺快了
试了下在镜像里面进行推理,速度还是一样慢
我是遇到部署推理一段时间后,推理速度只有原来的一半!不知道是啥问题
我是遇到部署推理一段时间后,推理速度只有原来的一半!不知道是啥问题
会不会是显存不够了? 我们后来都采用镜像方式,一开始速度就挺快了,然后也基本上速度没下来过。(但是我们推理服务基本上也就运行几天就手动去停止了,还没有长时间运行过)
显存够得
我用docker跑的ollama,第一次运行模型时间会很久,起来了之后问答基本秒回,然后过了一段时间后再次提问又要等好久,时间和重新运行时间差不多
应该是初始化CUDA的问题
可以看看:https://blog.csdn.net/qq_40231159/article/details/120901785 这篇文章