MiniCPM icon indicating copy to clipboard operation
MiniCPM copied to clipboard

生成速度比Qwen2 7B还慢

Open lucasjinreal opened this issue 1 year ago • 5 comments
trafficstars

测试了一下在V100上速度较慢,这是为何

lucasjinreal avatar Sep 06 '24 06:09 lucasjinreal

我刚测了也发现比qwen2慢,比较明显。我用的都是llama.cpp gguf q4的量化。发现qwen2日志里显示offloaded 29 layers to GPU, 而minicpm3是offloaded 63 layers to GPU. 不知道是不是层数太深计算量比较大的缘故。

jason-ni avatar Sep 07 '24 08:09 jason-ni

确实太慢了。。。在RTX4090上运行modelscope示例代码,居然只有24字/秒。 这速度真是服了。毫无用处

yaleimeng avatar Sep 11 '24 02:09 yaleimeng

miniCPM3.0-4B体验了一下 1)对于4B效果还可以,但语义理解、SFT、指令遵从还是弱于qwen2-7B。 2)速度太慢了!!!

www516717402 avatar Sep 11 '24 06:09 www516717402

对头,实际上这种参数少,但是速度慢的模型,即便是在移动端都不一定有太大用途,移动端一样速度慢,尽管内存占用小一点,但感觉收益比不高,内存不一定是瓶颈,反而是速度、智能度是更高优先级

lucasjinreal avatar Sep 11 '24 08:09 lucasjinreal

对头,实际上这种参数少,但是速度慢的模型,即便是在移动端都不一定有太大用途,移动端一样速度慢,尽管内存占用小一点,但感觉收益比不高,内存不一定是瓶颈,反而是速度、智能度是更高优先级

有研究为什么minicpm-2B会比其他公司更大的(如qwen-4B)模型慢的原因吗?谢谢。

Ijustakid avatar Sep 12 '24 09:09 Ijustakid

推荐使用SGLang推理,它对MiniCPM3中使用的MLA结构优化的更好,serving时的吞吐量实测相比于vLLM能提高70%。README中已经更新。

zh-zheng avatar Sep 18 '24 16:09 zh-zheng