Qwen-Agent 使用过程中爆显存

启动openai_api.py 和agent server后，在提问一次之后就会爆显存，两块A800的资源都不够用

Dec 18 '23 08:12 Dongmei97

我这边用单张40G的显卡，跑Qwen-7B-Chat没问题，你是用的多少B模型呢？可以考虑设置max_ref_token=3000或更小来避免OOM。

Dec 19 '23 11:12 tuhahaha

我们用的是两张a800 80显卡，跑72b-int4，刚启动后没有问题，但是问了两三个问题之后就oom了

---- 回复的原邮件 ---- | 发件人 | Jianhong @.> | | 日期 | 2023年12月19日 19:24 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [QwenLM/Qwen-Agent] 使用过程中爆显存 (Issue #65) |

我这边用单张40G的显卡，跑Qwen-7B-Chat没问题，你是用的多少B模型呢？可以考虑设置max_ref_token=3000或更小来避免OOM。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Dec 19 '23 11:12 Dongmei97

我用的Qwen-14B-Chat模型占用16G左右显存，Code Interpreter问了几轮之后就40G然后kill掉server之后依然40G占用得重新部署模型

Jan 25 '24 08:01 ruifengma

代码的文本量还是挺大的，这个限制都没法限制。

---原始邮件--- 发件人: @.> 发送时间: 2024年1月25日(周四) 下午4:26 收件人: @.>; 抄送: @.***>; 主题: Re: [QwenLM/Qwen-Agent] 使用过程中爆显存 (Issue #65)

我用的Qwen-14B-Chat模型占用16G左右显存，Code Interpreter问了几轮之后就40G然后kill掉server之后依然40G占用得重新部署模型

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

Jan 25 '24 10:01 ye7love7

Qwen-Agent Qwen-Agent copied to clipboard

使用过程中爆显存

Qwen-Agent
Qwen-Agent copied to clipboard