Qwen-Agent
Qwen-Agent copied to clipboard
使用过程中爆显存
启动openai_api.py 和agent server后,在提问一次之后就会爆显存,两块A800的资源都不够用
我这边用单张40G的显卡,跑Qwen-7B-Chat没问题,你是用的多少B模型呢?可以考虑设置max_ref_token=3000或更小来避免OOM。
我们用的是两张a800 80显卡,跑72b-int4,刚启动后没有问题,但是问了两三个问题之后就oom了
---- 回复的原邮件 ---- | 发件人 | Jianhong @.> | | 日期 | 2023年12月19日 19:24 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [QwenLM/Qwen-Agent] 使用过程中爆显存 (Issue #65) |
我这边用单张40G的显卡,跑Qwen-7B-Chat没问题,你是用的多少B模型呢?可以考虑设置max_ref_token=3000或更小来避免OOM。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
我用的Qwen-14B-Chat模型占用16G左右显存,Code Interpreter问了几轮之后就40G然后kill掉server之后依然40G占用 得重新部署模型
代码的文本量还是挺大的,这个限制都没法限制。
---原始邮件--- 发件人: @.> 发送时间: 2024年1月25日(周四) 下午4:26 收件人: @.>; 抄送: @.***>; 主题: Re: [QwenLM/Qwen-Agent] 使用过程中爆显存 (Issue #65)
我用的Qwen-14B-Chat模型占用16G左右显存,Code Interpreter问了几轮之后就40G然后kill掉server之后依然40G占用 得重新部署模型
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>