MiniCPM 生成速度比Qwen2 7B还慢

生成速度比Qwen2 7B还慢

Open lucasjinreal opened this issue 1 year ago • 5 comments

trafficstars

测试了一下在V100上速度较慢，这是为何

Sep 06 '24 06:09 lucasjinreal

我刚测了也发现比qwen2慢，比较明显。我用的都是llama.cpp gguf q4的量化。发现qwen2日志里显示offloaded 29 layers to GPU, 而minicpm3是offloaded 63 layers to GPU. 不知道是不是层数太深计算量比较大的缘故。

Sep 07 '24 08:09 jason-ni

确实太慢了。。。在RTX4090上运行modelscope示例代码，居然只有24字/秒。这速度真是服了。毫无用处

Sep 11 '24 02:09 yaleimeng

miniCPM3.0-4B体验了一下 1）对于4B效果还可以，但语义理解、SFT、指令遵从还是弱于qwen2-7B。 2）速度太慢了!!!

Sep 11 '24 06:09 www516717402

对头，实际上这种参数少，但是速度慢的模型，即便是在移动端都不一定有太大用途，移动端一样速度慢，尽管内存占用小一点，但感觉收益比不高，内存不一定是瓶颈，反而是速度、智能度是更高优先级

Sep 11 '24 08:09 lucasjinreal

对头，实际上这种参数少，但是速度慢的模型，即便是在移动端都不一定有太大用途，移动端一样速度慢，尽管内存占用小一点，但感觉收益比不高，内存不一定是瓶颈，反而是速度、智能度是更高优先级

有研究为什么minicpm-2B会比其他公司更大的（如qwen-4B）模型慢的原因吗？谢谢。

Sep 12 '24 09:09 Ijustakid

推荐使用SGLang推理，它对MiniCPM3中使用的MLA结构优化的更好，serving时的吞吐量实测相比于vLLM能提高70%。README中已经更新。

Sep 18 '24 16:09 zh-zheng