ChatGLM2-6B [BUG/Help] 有个疑问，模型刚开始运行的时候推理很慢，但是过一段时间（问一些问题或者两三个小时后）推理就很快了，这个是什么原因？

[BUG/Help] 有个疑问，模型刚开始运行的时候推理很慢，但是过一段时间（问一些问题或者两三个小时后）推理就很快了，这个是什么原因？

Open ToviHe opened this issue 1 year ago • 13 comments

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

A100 40G的显卡，部署了chatglm2-6b的模型，刚开始运行的时候推理很慢，字符差不多是一个一个跳出来的，等过差不多两三个小时，突然就变快了，想问问是什么原因，以及是否是正常情况，谢谢。

Expected Behavior

No response

Steps To Reproduce

1.启动大模型 2.问问题，刚开始时响应很慢，几乎是一个字符跳出来的 3.过一段时间，推理就很快了，刷一下答案就出来了

Environment

- OS:suse 12 sp5
- Python:3.8.1
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

Jul 31 '23 09:07 ToviHe

我也有这个问题，很奇怪，我还以为pytorch的问题

Aug 09 '23 01:08 wu-shanglin

我也有这个问题，很奇怪，我还以为pytorch的问题

我这两天尝试使用镜像的方式部署，发现镜像的方式一启动，推理就很快了，不知道是不是和操作系统有关系？

Aug 09 '23 01:08 ToviHe

经过反复测试，显存为6G，int4模型情况下，是由于显存占满导致溢出至内存处理的问题，因为速率不一致，他们交换数据时显卡无法发挥最大性能，windows的解决方法是关闭独显模式，使集显运行windows资源管理器，这样可以腾出0.5G显存，刚好足够跑下一个int4模型，第一次对话加载模型后，即可秒答复

Aug 09 '23 02:08 wu-shanglin

经过反复测试，显存为6G，int4模型情况下，是由于显存占满导致溢出至内存处理的问题，因为速率不一致，他们交换数据时显卡无法发挥最大性能，windows的解决方法是关闭独显模式，使集显运行windows资源管理器，这样可以腾出0.5G显存，刚好足够跑下一个int4模型，第一次对话加载模型后，即可秒答复

这个和我的情况看起来不一样，我是一块 40G 的 A100，都没有其他的程序占用

Aug 09 '23 02:08 ToviHe

问题有解决吗？我也遇到类似问题。我用了两张T4显卡，但只是实际只用到了一张。推理速度很慢