MOSS icon indicating copy to clipboard operation
MOSS copied to clipboard

推理速度很慢

Open mynamedaike opened this issue 1 year ago • 14 comments

在32G V100显卡上进行了FP16精度模型多卡部署以及8 Bit和4 Bit量化模型单卡部署,发现推理速度都很慢。一个普通问题需要100-120秒甚至更长时间才能做出回答。

mynamedaike avatar Apr 23 '23 09:04 mynamedaike

+1

duanyu avatar Apr 24 '23 01:04 duanyu

+1

wellingtonyl avatar Apr 24 '23 02:04 wellingtonyl

我也发现了,我用两张3090和6张3090,并没有感觉到速度上的差别。同时,我用一张3090跑alpaca,它速度就很快,基本上0.X秒就可以回答出来答案,写代码稍微慢一点,但也就几秒钟。所以我不太确定问题出在哪里。

zacario-li avatar Apr 24 '23 02:04 zacario-li

+1

liushengyi avatar Apr 24 '23 06:04 liushengyi

两张A10或者4张A10同样的,非常慢。。

lzlz99 avatar Apr 24 '23 07:04 lzlz99

4张tesla V100 都还是慢的飞起, 而且还短,重要信息说一半没了,不知道咋续上

SkySlity avatar Apr 24 '23 08:04 SkySlity

+1, 同样的情况

smallshen avatar Apr 24 '23 23:04 smallshen

回答都不错,但就是慢,两个A100推理速度一般10s起步,慢点就100s,测试了常见的中文提问,sql能力,python能力。

kevindany avatar Apr 25 '23 03:04 kevindany

+1,同样的情况

Deali-Axy avatar May 05 '23 01:05 Deali-Axy

+1

xxxxuee avatar May 06 '23 08:05 xxxxuee

+1,等待优化

dandanzou-hust avatar May 06 '23 10:05 dandanzou-hust

生成一篇1000字的文章,测试了一下要1分钟多的时间,

wanglaiqi avatar Jun 19 '23 02:06 wanglaiqi

有后续么?

Deali-Axy avatar Jul 15 '23 10:07 Deali-Axy

+1

zjmwqx avatar Sep 25 '23 02:09 zjmwqx