CogAgent icon indicating copy to clipboard operation
CogAgent copied to clipboard

推理时间问题

Open 128veg80 opened this issue 10 months ago • 10 comments

我在v100显卡对CogAgent-9B-20241220进行本地部署,单步推理的时间在8s左右。请问这个时长是否正常,亦或是我推理方式有问题?

128veg80 avatar Feb 12 '25 01:02 128veg80

啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?

leeaction avatar Feb 12 '25 04:02 leeaction

啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?

没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。

128veg80 avatar Feb 17 '25 06:02 128veg80

啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?

没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。

你是用的什么推理框架? 还是基于官方的demo?

leeaction avatar Feb 17 '25 08:02 leeaction

啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?

没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。

你是用的什么推理框架? 还是基于官方的demo?

官方demo

128veg80 avatar Feb 18 '25 05:02 128veg80

啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?

没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。

你是用的什么推理框架? 还是基于官方的demo?

官方demo

你用的是A100吧? V100只有32G显存 基本就占满了

leeaction avatar Feb 19 '25 07:02 leeaction

啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?

没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。

你是用的什么推理框架? 还是基于官方的demo?

官方demo

你用的是A100吧? V100只有32G显存 基本就占满了 我用了两张v100

128veg80 avatar Feb 19 '25 12:02 128veg80

emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。

zRzRzRzRzRzRzR avatar Feb 20 '25 05:02 zRzRzRzRzRzRzR

emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。 sorry,8s是我的体感时间,刚才批量测的平均时间是13s。精度用的bfloat16,两张v100。牛牛app的推理速度好快呀,请问怎么能达到那个速度。

128veg80 avatar Feb 20 '25 06:02 128veg80

sorry,8s是我的体感时间,刚才批量测的平均时间是13s。精度用的bfloat16,两张v100,模型回答正常。牛牛app的推理速度好快呀,请问怎么能达到那个速度。

------------------ 原始邮件 ------------------ 发件人: "THUDM/CogAgent" @.>; 发送时间: 2025年2月20日(星期四) 中午1:02 @.>; @.@.>; 主题: Re: [THUDM/CogAgent] 推理时间问题 (Issue #36)

emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***> zRzRzRzRzRzRzR left a comment (THUDM/CogAgent#36)

emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

128veg80 avatar Feb 20 '25 06:02 128veg80

sorry,8s是我的体感时间,刚才批量测的平均时间是13s。精度用的bfloat16,两张v100,模型回答正常。牛牛app的推理速度好快呀,请问怎么能达到那个速度。

V100 不支持 bfloat16吧?

leeaction avatar Feb 20 '25 10:02 leeaction