LongWriter icon indicating copy to clipboard operation
LongWriter copied to clipboard

这个需要多大得显存可以跑起来RTX4090 24G可以吗

Open anstonjie opened this issue 1 year ago • 9 comments

System Info / 系統信息

这个需要多大得显存可以跑起来RTX4090 24G可以吗

Who can help? / 谁可以帮助到您?

No response

Information / 问题信息

  • [ ] The official example scripts / 官方的示例脚本
  • [ ] My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

这个需要多大得显存可以跑起来RTX4090 24G可以吗

Expected behavior / 期待表现

这个需要多大得显存可以跑起来RTX4090 24G可以吗

anstonjie avatar Aug 17 '24 01:08 anstonjie

你好,我这边用H800是可以在24g显存之内完成1w字生成的

bys0318 avatar Aug 17 '24 14:08 bys0318

显存占用大概在20g左右

bys0318 avatar Aug 17 '24 14:08 bys0318

你好,我的RTX 4090 16G的,试了可以运行,但是每运行一次输出,显存就增高一些,输出三次左右显存就爆了,这个是什么原因,是不是有历史记录的原因

---- 回复的原邮件 ---- | 发件人 | Yushi @.> | | 日期 | 2024年08月17日 22:30 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [THUDM/LongWriter] 这个需要多大得显存可以跑起来RTX4090 24G可以吗 (Issue #11) |

显存占用大概在20g左右

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

anstonjie avatar Aug 18 '24 12:08 anstonjie

第一次输出差不多8000多字,第二次9000多字,第三次也差不多8000多字,第四次的时候显存就满了,然后字马上变少

---- 回复的原邮件 ---- | 发件人 | Yushi @.> | | 日期 | 2024年08月17日 22:30 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [THUDM/LongWriter] 这个需要多大得显存可以跑起来RTX4090 24G可以吗 (Issue #11) |

显存占用大概在20g左右

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

anstonjie avatar Aug 18 '24 12:08 anstonjie

请试试在每次生成后加一下这行代码,释放未使用的显存:

torch.cuda.empty_cache()

bys0318 avatar Aug 18 '24 16:08 bys0318

好的,我试试

---- 回复的原邮件 ---- | 发件人 | Yushi @.> | | 日期 | 2024年08月19日 00:04 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [THUDM/LongWriter] 这个需要多大得显存可以跑起来RTX4090 24G可以吗 (Issue #11) |

请试试在每次生成后加一下

torch.cuda.empty_cache()

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

anstonjie avatar Aug 18 '24 16:08 anstonjie

在ollama中导入q4的gguf格式模型,在openwebui中提问,输出速度很慢,ollama主机4060ti显存你8G,显卡核心频率经常在210,很少到最大频率,7950x的CPU占用率50%。

allenxml avatar Aug 23 '24 16:08 allenxml

用bitsandbytes 4bit量化加载模型后,12G显存可以运行。 速度中等偏慢,但可以接受。

rrgkGitHub avatar Aug 23 '24 20:08 rrgkGitHub

用vllm加速的话需要多少显存?

mrpen2 avatar Aug 28 '24 10:08 mrpen2