MOSS 推理速度很慢

在32G V100显卡上进行了FP16精度模型多卡部署以及8 Bit和4 Bit量化模型单卡部署，发现推理速度都很慢。一个普通问题需要100-120秒甚至更长时间才能做出回答。

Apr 23 '23 09:04 mynamedaike

+1

Apr 24 '23 01:04 duanyu

+1

Apr 24 '23 02:04 wellingtonyl

我也发现了，我用两张3090和6张3090，并没有感觉到速度上的差别。同时，我用一张3090跑alpaca，它速度就很快，基本上0.X秒就可以回答出来答案，写代码稍微慢一点，但也就几秒钟。所以我不太确定问题出在哪里。

Apr 24 '23 02:04 zacario-li

+1

Apr 24 '23 06:04 liushengyi

两张A10或者4张A10同样的，非常慢。。

Apr 24 '23 07:04 lzlz99

4张tesla V100 都还是慢的飞起，而且还短，重要信息说一半没了，不知道咋续上

Apr 24 '23 08:04 SkySlity

+1, 同样的情况

Apr 24 '23 23:04 smallshen

回答都不错，但就是慢，两个A100推理速度一般10s起步，慢点就100s，测试了常见的中文提问，sql能力，python能力。

Apr 25 '23 03:04 kevindany

+1，同样的情况

May 05 '23 01:05 Deali-Axy

+1

May 06 '23 08:05 xxxxuee

+1，等待优化

May 06 '23 10:05 dandanzou-hust

生成一篇1000字的文章，测试了一下要1分钟多的时间，

Jun 19 '23 02:06 wanglaiqi

有后续么？

Jul 15 '23 10:07 Deali-Axy

+1

Sep 25 '23 02:09 zjmwqx

MOSS MOSS copied to clipboard