推理时间问题
我在v100显卡对CogAgent-9B-20241220进行本地部署,单步推理的时间在8s左右。请问这个时长是否正常,亦或是我推理方式有问题?
啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?
啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?
没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。
啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?
没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。
你是用的什么推理框架? 还是基于官方的demo?
啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?
没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。
你是用的什么推理框架? 还是基于官方的demo?
官方demo
啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?
没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。
你是用的什么推理框架? 还是基于官方的demo?
官方demo
你用的是A100吧? V100只有32G显存 基本就占满了
啊? 你在V100上有这么快的速度吗? 我在v100上单步操作会用到40s左右 你是量化过吗?
没有做量化,建议检查是不是每次推理都重新了加载模型。牛牛app搭载了CogAgent-9B-20241220,单步推理体感2s左右,所以我的8s应该也有问题。
你是用的什么推理框架? 还是基于官方的demo?
官方demo
你用的是A100吧? V100只有32G显存 基本就占满了 我用了两张v100
emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。
emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。 sorry,8s是我的体感时间,刚才批量测的平均时间是13s。精度用的bfloat16,两张v100。牛牛app的推理速度好快呀,请问怎么能达到那个速度。
sorry,8s是我的体感时间,刚才批量测的平均时间是13s。精度用的bfloat16,两张v100,模型回答正常。牛牛app的推理速度好快呀,请问怎么能达到那个速度。
------------------ 原始邮件 ------------------ 发件人: "THUDM/CogAgent" @.>; 发送时间: 2025年2月20日(星期四) 中午1:02 @.>; @.@.>; 主题: Re: [THUDM/CogAgent] 推理时间问题 (Issue #36)
emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***> zRzRzRzRzRzRzR left a comment (THUDM/CogAgent#36)
emm,单步推理V100为什么会这么快😂。 此外,V100是否出现了回答不正常,我们是不支持FP16的呀。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
sorry,8s是我的体感时间,刚才批量测的平均时间是13s。精度用的bfloat16,两张v100,模型回答正常。牛牛app的推理速度好快呀,请问怎么能达到那个速度。 …
V100 不支持 bfloat16吧?